DSR Suite (含DSR-Train和DSR-Bench)
收藏arXiv2025-12-24 更新2025-12-25 收录
下载链接:
https://github.com/TencentARC/DSR_Suite
下载链接
链接失效反馈官方服务:
资源简介:
DSR Suite是由香港大学与腾讯ARC实验室联合构建的动态空间推理数据集,包含DSR-Train和DSR-Bench两部分。该数据集基于真实场景视频,通过自动化流程提取相机位姿、局部点云、物体掩码及3D轨迹等几何线索,生成多选问答对,涵盖运动距离、方向、速度等6类问题。数据源自Koala-36M视频库,经筛选保留20-120秒的动态场景,每条视频采样32帧(训练集)或1FPS(评估集)构建问答。其核心应用于增强视觉语言模型(VLM)在机器人、AR/VR等领域的4D时空推理能力,解决动态物体几何关系演化的理解难题。
DSR Suite is a dynamic spatial reasoning dataset jointly constructed by The University of Hong Kong and Tencent ARC Lab, which consists of two subsets: DSR-Train and DSR-Bench. Based on real-world scene videos, the dataset extracts geometric cues including camera poses, local point clouds, object masks and 3D trajectories via automated pipelines, and generates multiple-choice question-answer pairs covering 6 categories of questions such as movement distance, direction and velocity. The dataset is sourced from the Koala-36M video repository, where dynamic scenes with durations ranging from 20 to 120 seconds are retained after screening. For each video, 32 frames are sampled for the training set, while 1 frame per second (FPS) is adopted for the evaluation set to construct question-answer pairs. Its core application is to enhance the 4D spatio-temporal reasoning capabilities of Vision-Language Models (VLMs) in fields such as robotics and AR/VR, and address the challenges in understanding the evolution of geometric relationships among dynamic objects.
提供机构:
香港大学, ARC实验室, 腾讯PCG
创建时间:
2025-12-24
原始信息汇总
DSR Suite 数据集概述
数据集基本信息
- 数据集名称: DSR Suite
- 发布机构: 香港大学、腾讯PCG ARC实验室
- 相关论文: Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models
- 数据与模型托管地址: https://huggingface.co/collections/TencentARC/dsr-suite
- GitHub仓库地址: https://github.com/TencentARC/DSR_Suite
数据集构成与目的
DSR Suite 是一个用于动态空间推理任务的数据集与模型套件。其核心目的是评估和提升视觉语言模型在动态场景中对三维空间关系的理解能力。
包含的数据集
-
DSR-Train
- 性质:训练数据集
- 规模:包含 50,000 个问答对
-
DSR-Bench
- 性质:评测基准
- 规模:包含 1,484 个问答对
- 特点:由人工标注者进一步精炼
数据生成方法
数据通过自动化流水线生成,流程如下:
- 输入源: 使用野外真实视频(基于 Koala-36M 视频数据库)。
- 生成要素: 随机选择的视角、目标物体、预定义的模板和答案推导规则。
- 评估维度: 生成的问答对可用于评估通用动态场景中的以下能力:
- 物体级与场景级的三维理解
- 多物体交互
- 视角变换
- 细粒度时序推理
关联模型组件
DSR Suite 配套提出了 Geometry Selection Module 模型组件。
- 目的: 将来自三维基础模型的几何先验知识无缝集成到视觉语言模型中,且不损害其通用理解能力。
- 结构: 由两个 Q-Former 堆叠而成。第一个 Q-Former 用于浓缩问题语义,第二个 Q-Former 用于从三维基础模型中提取与问题相关的知识,并将其压缩为一组几何令牌。
- 效果: 集成此模块后,视觉语言模型的空间推理能力得到提升,同时其通用理解性能得以保持。
技术依赖与致谢
数据生成流水线使用了以下模型来提取三维线索:
- Grounded SAM-2
- Orient Anything
- π^3
搜集汇总
数据集介绍

构建方式
在动态空间推理领域,数据集的构建需兼顾真实性与可扩展性。DSR Suite通过自动化流程,从野外视频中提取丰富的几何与运动信息,包括相机位姿、局部点云、物体掩码、朝向及三维轨迹。该流程首先利用大型语言模型筛选具有显著物体运动的视频片段,随后借助视觉基础模型进行几何线索提取,最终结合模板化与自由生成策略,构建包含多视角变换、多物体交互及细粒度答案的大规模选择题对,形成DSR-Train训练集与经人工精炼的DSR-Bench评估集。
特点
DSR Suite的核心特点在于其强调真实动态场景下的空间推理能力。数据集基于野外视频源,涵盖体育娱乐、交通运输、艺术表演等六大场景类别,确保场景多样性。其问题设计注重物体与场景层面的三维理解需求,支持从相机或智能体视角的观察变换,并融入多物体交互分析。答案采用细粒度的过程性描述,要求模型理解物体属性随时间演变的连续动态,而非单一时刻的快照,从而全面评估动态空间推理的深度与广度。
使用方法
DSR Suite为视觉语言模型的动态空间推理能力提供了系统的训练与评估框架。研究人员可利用DSR-Train进行模型训练,通过注入几何先验知识增强模型对三维动态关系的理解。评估阶段则使用DSR-Bench,其涵盖12类模板化问题及自由生成问题,全面检验模型在物体距离、方向、朝向、速度等方面的推理性能。该数据集支持与轻量级几何选择模块(GSM)等架构结合,实现几何知识的针对性融合,在提升空间推理能力的同时保持通用视频理解性能。
背景与挑战
背景概述
DSR Suite是由香港大学与腾讯ARC实验室于2025年联合推出的一个专注于动态空间推理的数据集框架,旨在弥补视觉语言模型在动态场景中三维空间推理能力的不足。该框架包含用于训练的DSR-Train和用于评估的DSR-Bench,通过自动化流程从真实世界视频中提取相机位姿、物体轨迹等几何线索,生成多样化的问答对,以支持模型在机器人、自动驾驶等领域的应用。其核心研究问题在于如何让模型理解物体在三维空间中随时间变化的几何关系,推动了4D多模态智能的发展。
当前挑战
DSR Suite所解决的领域挑战是动态空间推理,即要求模型在物体运动和视角变换的复杂环境中,推断物体间距离、方向、速度等属性的连续变化,这比静态空间推理更具难度。在构建过程中,数据集面临多重挑战:首先,从单目视频中提取可靠的三维几何信息存在尺度模糊性,需依赖视觉基础模型生成相对几何线索;其次,确保问答对涵盖多物体交互、视角转换和细粒度时间推理,同时保持真实场景的多样性,需精心设计视频筛选与数据生成流程;此外,避免注入的几何先验知识干扰模型的一般视觉理解能力,也构成了模型集成上的挑战。
常用场景
经典使用场景
在动态空间推理领域,DSR Suite作为一套综合性数据集与评估基准,其经典使用场景聚焦于训练和评估视觉语言模型在真实世界视频中理解物体几何关系随时间演变的能力。通过自动化流程从野外视频提取相机姿态、局部点云、物体轨迹等三维几何线索,该数据集构建了包含多对象交互、视角变换和细粒度答案的问答对,为模型提供了从运动车辆到自然野生动物等多种场景下的动态空间推理任务,从而系统化地提升模型对四维时空环境的认知水平。
实际应用
在实际应用层面,DSR Suite的能力可直接赋能于需要动态空间理解的智能系统。例如,在自动驾驶领域,模型可基于视频实时推理车辆与行人的相对运动趋势;在机器人导航中,系统能理解环境中多物体的轨迹变化以规划安全路径;同时,该数据集也支持增强现实应用,通过动态几何关系分析实现虚拟对象的精准叠加。这些应用场景体现了从实验室推理向真实世界交互的关键过渡,为具身智能和交互式AI系统的实际部署提供了可靠的技术支撑。
衍生相关工作
围绕DSR Suite衍生的经典工作主要包括几何先验增强的视觉语言模型架构,如轻量级几何选择模块(GSM)通过双Q-Former设计实现问题相关的几何知识筛选,避免了无关噪声对通用理解的干扰。此外,该数据集激发了后续研究如VLM-3R和VG-LLM等空间推理模型的改进,这些工作通过融合三维重建先验或坐标编码策略,进一步提升了动态环境下的推理性能。同时,DSR-Bench作为评估基准,推动了OmniSpatial、STI-Bench等相关数据集的细粒化和多样化发展,共同构成了动态空间推理研究的重要生态体系。
以上内容由遇见数据集搜集并总结生成



