SR
收藏arXiv2025-04-02 更新2025-04-07 收录
下载链接:
https://github.com/OuyangKun10/Spatial-R1
下载链接
链接失效反馈官方服务:
资源简介:
SR数据集是基于ScanNet创建的高质量视频空间推理数据集,包含自动生成的七种任务类型的问题答案对。这些任务包括物体相对距离、物体大小估计、房间大小估计、物体相对方向、物体出现顺序、物体绝对距离和物体计数。数据集通过数据标注、自动问题生成和数据过滤三个步骤精心制作而成,旨在提升多模态大型语言模型在视频空间推理方面的能力。
The SR dataset is a high-quality video spatial reasoning dataset developed based on ScanNet, containing automatically generated question-answer pairs across seven task types. These tasks cover relative distance between objects, object size estimation, room size estimation, relative orientation of objects, appearance order of objects, absolute distance of objects, and object counting. The dataset is meticulously constructed through three steps: data annotation, automatic question generation, and data filtering, aiming to enhance the video spatial reasoning capabilities of multimodal large language models.
提供机构:
北京大学
创建时间:
2025-04-02
搜集汇总
数据集介绍

构建方式
SR数据集构建过程分为三个关键步骤:数据标注、自动问答生成与数据过滤。基于ScanNet的RGB视频帧以24FPS重采样后,通过元信息标注首次出现的物体帧。针对七类空间推理任务(如物体相对距离、尺寸估计等),开发了自动化问答生成流水线,利用点云分割、轴对齐边界框计算等几何分析方法生成结构化QA对。最终通过严格筛选获得约9k高质量样本,其JSONL格式存储确保了数据的可扩展性。
特点
SR数据集聚焦视频空间推理的七类核心任务,涵盖物体相对/绝对距离判断、尺寸估计、方向关系等多元场景。其独特价值在于通过ScanNet点云数据驱动的几何计算,确保答案的毫米级空间精度。多任务设计促使模型同步掌握数值计算与多选逻辑能力,而自动生成机制支持数据规模的灵活扩展。实验表明,该数据集能有效提升模型在VSI-Bench上7.4%的推理准确率。
使用方法
使用SR数据集时需区分数值型与多选型QA任务。针对数值问题可采用数值精度奖励(NAR)函数,通过线性阈值空间计算预测偏差;多选问题则适用分类准确奖励(MAR)。建议遵循<think></think><answer></answer>的响应格式规范,结合任务特定组相对策略优化(GRPO)进行微调。该数据集已成功应用于Qwen2.5-VL-7B模型训练,用户可通过GitHub获取完整数据与训练框架复现。
背景与挑战
背景概述
SR数据集由北京大学Kun Ouyang团队于2025年提出,旨在增强多模态大语言模型(MLLMs)在视频空间推理任务中的表现。该数据集基于ScanNet构建,通过自动化流程生成了涵盖七类核心空间推理任务的问答对,包括物体相对距离、尺寸估计、房间面积计算等关键问题。作为首个专注于视频动态场景空间关系解析的专项数据集,SR填补了MLLMs在时空联合推理能力评估方面的空白,其创新性的任务设计和严格的数据筛选流程为VSI-Bench基准测试的性能突破提供了关键支撑。
当前挑战
在解决视频空间推理这一新兴领域问题时,SR数据集面临双重挑战:领域层面需克服动态场景中时空特征耦合带来的建模复杂度,传统静态图像推理方法难以捕捉物体运动轨迹与空间关系的动态演变;构建层面则需应对ScanNet原始数据异构性带来的标注一致性难题,开发自动化QA生成管道时需平衡几何计算精度与语义逻辑合理性。特别是物体绝对距离计算等任务要求毫米级点云对齐精度,而外观顺序推理需解决视频帧间物体遮挡导致的时序歧义问题,这些技术难点通过创新的Alpha Shape算法和跨模态标签映射策略得以系统化解。
常用场景
经典使用场景
在视频空间推理领域,SR数据集通过自动生成的七类空间推理任务问答对,为多模态大语言模型(MLLMs)提供了丰富的训练素材。该数据集特别适用于模型在动态场景中理解物体相对距离、尺寸估计、房间面积计算等复杂空间关系的场景,为视频理解任务提供了标准化评估基准。
衍生相关工作
SR数据集推动了视频空间推理领域的系列创新研究。基于其构建的Spatial-R1框架验证了任务特定组相对策略优化(GRPO)的有效性,后续研究进一步拓展了在3D场景理解中的应用。相关工作如LMM-R1等借鉴了其数据生成范式,在跨模态推理任务中实现了知识迁移。
数据集最近研究
最新研究方向
在视频空间推理领域,SR数据集的推出为多模态大语言模型(MLLMs)的复杂空间推理能力提升开辟了新路径。该数据集基于ScanNet构建,通过自动化生成的七类任务问答对(如物体相对距离、尺寸估计和方向判断等),系统性地解决了动态场景中空间属性推理的难题。前沿研究聚焦于如何结合任务特定的组相对策略优化(GRPO)技术,显著提升模型在VSI-Bench基准上的性能表现。当前热点探索方向包括:利用几何约束增强问答生成的逻辑严谨性,开发跨模态时空对齐算法以优化视频序列理解,以及通过可扩展的数据生成框架支持更大规模训练。这一工作不仅推动了视频理解中空间认知任务的标准化评估,也为机器人导航、增强现实等应用提供了关键技术支持。
相关研究论文
- 1Spatial-R1: Enhancing MLLMs in Video Spatial Reasoning北京大学 · 2025年
以上内容由遇见数据集搜集并总结生成



