空间推理专用VQA基准测试集

#REPO GitHub Search 2026.05.28

推荐指数 54.0 NO. 011 · 2026.05.28

Stars137创建4 天前Forks0Issues0

为什么值得看

Spatial-VQA-Bench 是一个 3200 条手工校验的基准测试，专门隔离评估多模态大模型的空间视觉推理能力（2D/3D 关系、旋转预测），而非混在通用 VQA 中稀释信号。对做具身智能、机器人导航、AR 交互的工程师有直接参考价值，能更精准地选型或定位模型短板。

Spatial-VQA-Bench: a focused benchmark of spatial visual reasoning for multimodal LLMs.

编辑判断

当前主流 VQA 评估如 VQAv2、OK-VQA 把空间推理埋在海量模板题里，模型靠物体识别刷分就能掩盖几何盲区，这也是很多机器人 demo 在实验室漂亮、落地就撞墙的原因之一。这个基准的聪明之处在于用「纯空间」问题强制剥离语义捷径，类似思路可以参考 Stanford 的 SpatialSense 和 GQA 的子集分析，但那些数据集要么规模小、要么构造方式有偏。

做机器人抓取或自动驾驶感知管线的团队，建议用它做模型的 go/no-go 筛选，比跑完整 VQA 省 90% 时间；做模型本身的团队，旋转预测那 640 题目前 GPT-4V 和 Gemini 都还有明显错误模式，是发论文的好切入点。

Star History

生态分析

Experimental

多模态LLM空间推理能力的细分评测基准，填补通用VQA与具身智能之间的评估空白

独特价值：手工校验3200条纯空间推理题，隔离评估2D/3D关系与旋转预测，信号不稀释

查看原文 →