VRUBench
收藏arXiv2026-04-17 更新2026-04-19 收录
下载链接:
https://github.com/Young-Zhen/VRU_Interpret
下载链接
链接失效反馈官方服务:
资源简介:
VRUBench是由北京理工大学团队构建的文本视角旋转理解基准数据集,旨在评估大模型在纯文本输入下的空间推理能力。该数据集包含19,591个实例,模拟了包含100种室内物体的虚拟环境,通过多步视角旋转(2-5步)生成文本序列,要求模型预测最终视角的观察对象。数据通过系统化流程构建:限定旋转角度为90°的整数倍以避免观察歧义,采用随机采样和视角回放机制确保数据多样性。该数据集主要应用于空间智能研究领域,揭示了当前大模型在无视觉输入时空间认知的局限性,为改进模型的空间推理机制提供了重要基准。
VRUBench is a benchmark dataset for text-based viewpoint rotation understanding, constructed by the team from Beijing Institute of Technology. It aims to evaluate the spatial reasoning capabilities of large language models (LLMs) when processing pure text inputs. This dataset contains 19,591 instances, which simulate virtual environments with 100 types of indoor objects. Text sequences are generated through multi-step viewpoint rotations (2 to 5 steps), and models are required to predict the objects observed from the final viewpoint. The dataset is built via a systematic workflow: rotation angles are limited to integer multiples of 90° to avoid observational ambiguity, and random sampling and viewpoint replay mechanisms are adopted to ensure data diversity. It is mainly applied in the field of spatial intelligence research, revealing the limitations of current large language models in spatial cognition without visual inputs, and providing an important benchmark for improving the spatial reasoning mechanisms of such models.
提供机构:
北京理工大学·计算机科学与技术学院; 山东省计算中心(国家超级计算济南中心)·计算力网络与信息安全教育部重点实验室
创建时间:
2026-04-17
搜集汇总
数据集介绍
构建方式
在空间智能研究领域,VRUBench数据集的构建旨在探索语言模型在无视觉输入条件下对视角旋转的理解能力。该数据集通过模拟一个包含100种室内常见物体的虚拟环境,系统性地生成多步视角旋转序列。每个序列由初始观察、旋转动作及对应观察组成,旋转角度限定在0°、90°、180°、270°和360°之间,确保相邻视角的观察对象不重叠以避免歧义。在生成过程中,若模型旋转至未访问过的视角,则随机从候选物体中采样作为观察;若返回已访问视角,则重现先前观察。最终数据包含19,591个实例,涵盖2至5步旋转场景,并针对无法确定最终观察的情况设置“未知”标签。
使用方法
该数据集主要用于评估语言模型和视觉语言模型在纯文本条件下的视角旋转理解能力。使用时,模型接收包含任务说明、初始观察及多步旋转动作与观察的文本序列,需要预测最终旋转后的观察对象。评估设置包括直接输出答案和思维链推理两种模式,后者要求模型在特定标签内输出推理过程后的答案。研究人员可通过准确率指标量化模型性能,并利用数据集提供的分层旋转步长样本分析模型随任务复杂度变化的性能曲线。此外,该数据集支持层间探测分析和因果干预等可解释性研究方法,有助于揭示模型内部的空间信息处理机制。
背景与挑战
背景概述
随着大型语言模型与视觉语言模型的快速发展,空间智能作为人工智能领域的关键能力日益受到关注。VRUBench数据集由北京理工大学的研究团队于2026年提出,旨在探索模型在纯文本输入下对视角旋转的理解能力。该数据集聚焦于空间智能中的基础核心问题——视角旋转理解,通过模拟多步旋转与观察序列,要求模型推断最终视角并预测对应观测对象。VRUBench的构建填补了文本空间智能研究在动态视角转换场景中的空白,为评估模型在缺乏视觉信息时的空间推理能力提供了标准化基准,推动了语言模型空间认知机制的深入探索。
当前挑战
VRUBench数据集所针对的领域挑战在于,当前大型语言模型与视觉语言模型在纯文本输入下难以有效理解动态视角旋转,其表现远低于人类水平,揭示了模型在空间智能方面存在的显著差距。具体而言,模型在编码旋转方向与角度后,无法将视角位置与对应观察对象进行有效绑定,导致最终输出出现幻觉现象。在数据集构建过程中,研究团队需确保旋转角度的离散化以避免观测歧义,同时设计多步序列以模拟真实空间推理的复杂性,并需平衡数据规模与计算资源之间的约束,这些因素共同构成了数据集构建的技术挑战。
常用场景
经典使用场景
在空间智能研究领域,VRUBench数据集被广泛应用于评估大型语言模型和视觉语言模型在纯文本条件下的视角旋转理解能力。该数据集通过模拟室内环境中的多步视角旋转序列,要求模型仅依据文本描述的动作与观测历史,推断最终视角方向并预测对应观测对象。这一经典场景深刻揭示了模型在缺乏视觉输入时,如何依赖语言智能进行动态空间推理的内在机制。
解决学术问题
VRUBench数据集有效解决了空间智能研究中一个长期被忽视的核心问题:纯语言模态下动态空间推理能力的评估与机制解析。该数据集不仅量化了当前模型在文本视角旋转理解任务上的性能瓶颈,更通过层间探测与因果干预等可解释性方法,揭示了模型编码方向、角度与绝对朝向的层次化表征模式,以及关键注意力头在答案决策阶段的绑定失败现象。这一工作为理解语言模型的空间认知架构提供了实证基础,推动了跨模态空间智能的理论发展。
实际应用
在现实应用中,VRUBench所针对的文本空间推理能力对盲人辅助系统、文本导航界面以及无视觉输入的具身智能体具有重要价值。例如,在无障碍交互场景中,系统需通过纯语言指令引导用户理解空间方位变化;在文本型虚拟环境中,智能体需依据历史描述重建空间布局并做出行动决策。该数据集的评估框架为开发鲁棒的空间感知语言模型提供了基准,其选择性微调方法更展示了以有限计算代价提升专业能力的工程潜力。
数据集最近研究
最新研究方向
在空间智能领域,VRUBench数据集的研究聚焦于探索大语言模型与视觉语言模型在纯文本输入下理解视点旋转的内在机制。前沿研究揭示了模型在编码旋转方向与角度方面表现优异,但在将视点方位与对应观察对象进行有效绑定时存在显著困难,导致最终答案出现幻觉现象。通过分层探测与因果干预等可解释性方法,研究识别出位于中高层的关键注意力头在决策过程中扮演提案、答案选择及不确定性处理等特定角色。基于此,选择性微调关键注意力头的策略不仅提升了模型在视点旋转理解任务上的性能,还避免了通用能力的灾难性遗忘,同时验证了文本与视觉模态学习相互增强的双重编码理论,为构建更强大的空间智能模型提供了新的改进范式。
相关研究论文
- 1How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study北京理工大学·计算机科学与技术学院; 山东省计算中心(国家超级计算济南中心)·计算力网络与信息安全教育部重点实验室 · 2026年
以上内容由遇见数据集搜集并总结生成



