AMAZINGINDEX.COM 每日 AI 简报
52.9
VOL. 2026.06
2026.06.13
← 返回 2026.06.13 日报
日报快照 · Daily Snapshot
NO. 024

代码当接口,VLM空间推理免训练提升

#HF_PAPERS HuggingFace Papers 2026.06.13
推荐指数 80.0 NO. 024 · 2026.06.13
upvotes78comments1

SpatialClaw 用代码替代传统工具调用接口,让视觉语言模型无需训练就能完成复杂 3D/4D 空间推理任务。对做机器人、AR/VR 的工程师来说,这意味着不用攒空间标注数据,直接复用现有 VLM 就能上线空间理解能力。

代码当接口,VLM空间推理免训练提升

之前工具增强型 VLM 的空间推理能力被动作接口卡死了——要么用固定格式的 API 调用,要么用自然语言描述坐标,模型经常搞混相对位置和状态变化。SpatialClaw 的 trick 是把 Python 代码当成通用胶水,让 VLM 直接写脚本去调用感知工具、维护中间变量、做多步推演,本质上是用代码的 stateful 特性弥补了 VLM 工作记忆短的缺陷。

论文里没提具体模型,但从实验设置看应该能在 GPT-4V、Claude 3 等主流多模态模型上直接跑。如果开源了代码接口层,做机器人导航或工业质检的团队可以优先试,这类场景对空间精度要求高但标注成本极高。

不过训练-free 的代价是推理时 token 消耗会涨,而且代码生成错了 debug 成本不低, latency 敏感的场景需要权衡。

查看原文 →