DSR-Train, DSR-Bench

github2025-12-24 更新2025-12-25 收录

下载链接：

https://github.com/TencentARC/DSR_Suite

下载链接

链接失效反馈

官方服务：

资源简介：

DSR-Train是一个包含50K问答对的训练数据集，用于动态空间推理任务。DSR-Bench是一个包含1484个问答对的基准测试集，经过人工注释进一步细化。这些数据集用于评估对象和场景级别的3D理解、多对象交互、视角变换和一般动态场景中的细粒度时间推理。

DSR-Train is a training dataset containing 50K question-answer pairs for dynamic spatial reasoning tasks. DSR-Bench is a benchmark dataset with 1484 question-answer pairs, which was further refined via manual annotation. These datasets are used to evaluate 3D understanding at the object and scene levels, multi-object interaction, viewpoint transformation, and fine-grained temporal reasoning in general dynamic scenes.

创建时间：

2025-12-24

原始信息汇总

DSR Suite 数据集概述

数据集基本信息

数据集名称：DSR Suite
核心内容：包含一个用于动态空间推理任务的自动化数据生成流程，以及一个将3D基础模型的几何先验无缝集成到视觉语言模型中的模块。
主要构成：
1. DSR-Train：一个包含5万个问答对的训练数据集。
2. DSR-Bench：一个包含1484个问答对的基准测试集，该数据集经过人工标注者进一步细化。

数据生成与特点

生成方式：通过自动化数据生成流程构建多项选择题问答对。
数据源：基于野外视频构建。
评估维度：生成的问答可用于评估通用动态场景中的以下能力：
- 对象级和场景级的3D理解。
- 多对象交互。
- 视角变换。
- 细粒度时序推理。
生成要素：利用随机选择的视点、目标对象、预定义模板和答案推导规则。

模型增强模块

模块名称：几何选择模块
模块缩写：GSM
结构：由两个Q-Former堆叠而成。
- 第一个Q-Former用于压缩问题语义。
- 第二个Q-Former用于从3D基础模型中提取与问题相关的知识，并将其压缩为一组紧凑的几何令牌。
作用：将这些几何令牌与视觉令牌连接后，能在保持视觉语言模型通用理解性能的同时，提升其空间推理能力。

引用信息

如果使用本工作，请考虑引用： bibtex @misc{zhou2025learning, title={Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models}, author={Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi}, year={2025}, eprint={2512.20557}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.20557}, }

搜集汇总

数据集介绍

构建方式

在动态空间推理领域，DSR-Train与DSR-Bench数据集的构建依托于一套自动化数据生成流程。该流程以野外视频为原始素材，通过随机选取视角与目标对象，结合预定义的问题模板与答案推导规则，系统性地生成多项选择题对。生成过程深度融合了三维基础模型提供的几何先验知识，确保了问题在对象级与场景级三维理解、多对象交互、视角变换以及细粒度时序推理等多个维度的覆盖。最终，DSR-Train作为训练集包含了五万对问答，而DSR-Bench则经过人工标注者的进一步精炼，形成了一千四百八十四对问答的评测基准。

特点

该数据集的核心特征在于其专注于动态场景下的四维空间推理能力评估。它不仅考察静态的三维空间关系，更将时间维度纳入考量，要求模型理解物体在连续视频帧中的运动与交互。数据集问题设计涵盖了从单一对象定位到复杂场景动态解析的多层次任务，有效桥接了视觉感知与逻辑推理。此外，通过引入几何选择模块的适配，数据集能够促进视觉语言模型在保持通用理解能力的同时，显著提升其空间推理性能，为模型在真实世界动态环境中的理解提供了严谨的评估框架。

使用方法

数据集的使用旨在系统评估与增强视觉语言模型的动态空间推理能力。研究者可将DSR-Train用于模型的监督训练，通过其大规模、多样化的问答对来微调模型参数。DSR-Bench则作为独立的评测基准，用于客观衡量模型在未见数据上的推理性能。典型的使用流程包括加载视频数据、提取视觉与几何特征，并利用配套的几何选择模块将三维先验知识注入模型。评估时，模型需根据视频内容与问题，从多个候选答案中做出选择，其准确率等指标可直接反映模型在动态空间理解任务上的成熟度。

背景与挑战

背景概述

在计算机视觉与人工智能的交叉领域，动态空间理解是赋予视觉语言模型（VLMs）对三维世界进行时空推理能力的关键前沿。由香港大学与腾讯ARC实验室的研究团队于2025年创建的DSR-Train与DSR-Bench数据集，正是针对这一核心问题而生。该数据集通过自动化流水线，从真实世界视频中生成涉及多视角变换、物体交互与细粒度时序推理的多选题对，旨在系统评估并提升模型在动态场景中的四维（三维空间加时间）认知能力。其工作不仅推动了视觉语言模型在复杂空间任务上的性能边界，也为具身智能等应用奠定了重要的数据基础。

当前挑战

动态空间推理任务本身面临多重挑战：模型需从二维视频流中精准推断三维几何结构，理解物体在连续时间内的运动与交互，并能应对视角变化的干扰。在数据集构建过程中，挑战同样显著。自动化生成流程需协调多个三维基础模型（如Grounded SAM2、Orient Anything）以提取可靠的几何先验，并确保生成的问答对在语义上严谨且多样。此外，将人类标注引入DSR-Bench以提升数据质量，也涉及对复杂时空关系进行高效且一致性的标注，这本身就是一项耗费资源的精细工作。

常用场景

经典使用场景

在计算机视觉与人工智能的交叉领域，动态空间理解是赋予视觉语言模型高阶认知能力的关键挑战。DSR-Train和DSR-Bench数据集专为动态空间推理任务而设计，其经典使用场景集中于评估和训练模型在复杂动态视频中对三维空间关系的理解能力。通过自动化流程生成的多选题对，能够系统性地考察模型在物体级与场景级三维理解、多物体交互、视角变换以及细粒度时序推理等方面的表现，为研究者提供了一个标准化、可复现的评测环境。

实际应用

在实际应用层面，增强的动态空间推理能力可显著提升智能系统在复杂环境中的交互与决策水平。例如，在自动驾驶领域，模型需要实时理解车辆、行人及其他物体在连续时间下的相对位置与运动轨迹；在机器人导航中，精确的空间关系判断是实现避障与路径规划的基础。DSR数据集为训练此类系统提供了高质量、多样化的监督信号，有助于开发出更可靠、适应现实世界动态变化的视觉语言智能体。

衍生相关工作

围绕DSR数据集，研究者们已开展了一系列经典工作，其中最具代表性的是与其配套提出的几何选择模块。该模块通过双Q-Former架构，将三维基础模型中的几何先验知识提炼并注入视觉语言模型中，在不损害其通用理解能力的前提下，专项提升了空间推理性能。这一创新架构为后续研究如何有效融合不同模态的专家知识提供了范式，并可能启发更多针对动态场景理解的多模态模型改进工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集