five

DSI-Bench

收藏
arXiv2025-10-22 更新2025-11-05 收录
下载链接:
https://hf-mirror.com/datasets/Viglong/DSI-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
DSI-Bench是一个用于动态空间智能的视觉问答(VQA)基准,包含近1000个动态场景视频和超过1700个手动注释的问题。数据集覆盖了观察者和物体的5种解耦运动模式,包括平移、旋转和组合运动。通过空间和时间对称的设计,DSI-Bench减少了偏见,并能够系统地评估模型在自我运动和物体运动方面的推理能力。该数据集旨在解决视觉语言模型(VLMs)在动态场景中理解和推理空间关系的能力限制问题。

DSI-Bench is a visual question answering (VQA) benchmark for dynamic spatial intelligence. It contains nearly 1,000 dynamic scene videos and over 1,700 manually annotated questions. The dataset covers five decoupled motion patterns of observers and objects, including translation, rotation and combined motions. With a spatially and temporally symmetric design, DSI-Bench reduces biases and enables systematic evaluation of models' reasoning capabilities regarding egomotion and object motion. This dataset aims to address the limitations of visual language models (VLMs) in understanding and reasoning about spatial relationships in dynamic scenes.
提供机构:
浙江大学;阿里巴巴集团;上海人工智能实验室
创建时间:
2025-10-22
搜集汇总
数据集介绍
main_image_url
构建方式
在动态空间智能研究领域,构建高质量基准数据集需兼顾数据多样性与标注严谨性。DSI-Bench通过整合CameraBench、Kinetics-700等多源动态视频数据,采用时空对称增强技术消除运动模式偏差,并基于固定三维参考系的人工标注流程,最终形成涵盖9类运动模式的943段视频与1700余个视觉问答对。该构建过程通过场景分割、运动轨迹滤波等标准化处理,确保数据在时空维度上的逻辑一致性。
特点
该数据集的核心特征体现在三维动态关系的系统性解耦。通过分离观察者与目标的平移、旋转及复合运动模式,构建出具有时空对称性的样本结构,有效规避了传统视觉语言模型对前进运动的语义偏好。其问题设计覆盖对象-场景、观察者-场景、观察者-对象三类空间关系推理任务,并引入首帧固定参考坐标系机制,为动态场景下的相对位姿变化分析提供精准评估基础。
使用方法
针对动态空间智能的能力评估,该数据集支持样本级与组级双重验证机制。研究者可通过直接问答或自由推理两种模式测试模型性能,其中组级评估要求模型在时空翻转的四个样本变体中保持至少三次正确预测,有效检验模型对运动对称性的理解鲁棒性。对于三维专家模型,需预先完成目标朝向校准与关键点掩码对齐,再通过规则映射将轨迹预测结果转换为标准答案选项。
背景与挑战
背景概述
动态空间智能作为计算机视觉领域的前沿研究方向,旨在解决观察者与目标物体同时运动场景下的三维空间关系推理问题。DSI-Bench由浙江大学、阿里巴巴集团及上海人工智能实验室于2025年联合发布,该基准数据集包含943个动态视频与1700余个人工标注的视觉问答对,系统覆盖九类解耦运动模式。其创新性地通过时空对称设计消减数据偏差,为评估视觉语言模型与专业空间模型的动态感知能力建立了标准化框架,显著推动了具身智能与自动驾驶等领域的空间认知研究进展。
当前挑战
该数据集核心挑战集中于动态空间关系的精确建模:其一,视觉语言模型普遍存在运动耦合认知偏差,难以区分观察者自身运动与目标物体运动;其二,语义先验导致的多模态幻觉现象频发,如将静态物体错误感知为前向运动;其三,传统三维几何约束在双运动场景下稳定性不足,关键点跟踪与距离估计精度显著下降。构建过程中需克服动态视频标注的时空一致性难题,并通过人工校验确保翻转增强样本的标签准确性。
常用场景
经典使用场景
在动态空间智能研究领域,DSI-Bench作为评估基准被广泛应用于测试视觉语言模型和专家模型在动态三维场景中的空间推理能力。该数据集通过包含观察者与物体同时运动的近千个视频样本,系统化地模拟了现实世界中复杂的空间关系变化,为模型在动态环境下的自我运动感知、物体轨迹追踪等核心任务提供了标准化测试平台。
解决学术问题
该数据集有效解决了动态场景中空间关系建模的学术难题,通过解耦观察者与物体的九种运动模式,揭示了现有模型在动态空间推理中的语义偏见与运动混淆现象。其时空对称设计突破了传统静态评估的局限,为理解模型在连续时空中的相对位姿推断、运动解耦等基础问题提供了关键见解,推动了三维动态感知理论框架的发展。
衍生相关工作
基于DSI-Bench的评估范式,研究者开发了如时空翻转增强、群体评估策略等创新方法。这些工作深化了对VLM运动偏见形成机制的理解,并催生了针对动态场景的专用架构改进。相关成果进一步推动了如VGGT、SpatialTrackerV2等三维专家模型在动态关键点追踪、相机位姿估计等方向的性能优化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作