DSI-Bench

github2025-10-22 更新2025-10-23 收录

下载链接：

https://github.com/SpatialVision/dsibench

下载链接

链接失效反馈

官方服务：

资源简介：

DSI-Bench是一个用于动态空间智能评估的基准数据集

DSI-Bench is a benchmark dataset for dynamic spatial intelligence evaluation

创建时间：

2025-10-18

原始信息汇总

DSI-Bench 数据集概述

数据集基本信息

数据集名称: DSI-Bench: A Benchmark for Dynamic Spatial Intelligence
核心功能: 动态空间智能基准测试
主要用途: 评估视觉语言模型在动态空间理解任务上的性能

数据集特点

专注于动态空间智能评估
包含多种视频增强变体：标准(std)、水平翻转(hflip)、反向(reverse)、反向水平翻转(reverse_hflip)
提供六种空间关系类别：
- 物体：静态相机
- 物体：移动相机
- 相机：静态场景
- 相机：动态场景
- 物体-相机距离
- 物体-相机方向

数据集获取

下载方式: 通过Hugging Face下载
下载命令: huggingface-cli download --repo-type dataset Viglong/DSI-Bench --local-dir DSI-Bench
数据集地址: https://huggingface.co/datasets/Viglong/DSI-Bench

评估方法

样本级评估

将所有增强变体中的样本视为独立样本
计算每个类别和整体的准确率

组级评估

对每个原始问题的4个增强视图进行集成投票
设定阈值n（如n=3），当正确预测数≥n时计为鲁棒正确

单视图评估

在单个增强变体上评估模型性能

技术实现

支持多线程并行处理
包含重试机制处理失败样本
提供完整的推理和评估代码框架

引用信息

bibtex @misc{zhang2025dsibenchbenchmarkdynamicspatial, title={DSI-Bench: A Benchmark for Dynamic Spatial Intelligence}, author={Ziang Zhang and Zehan Wang and Guanghao Zhang and Weilong Dai and Yan Xia and Ziang Yan and Minjie Hong and Zhou Zhao}, year={2025}, eprint={2510.18873}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.18873}, }

搜集汇总

数据集介绍

构建方式

在动态空间智能评估领域，DSI-Bench通过精心设计的视频序列与空间推理问题构建数据集。该数据集采用多视角增强策略，包含标准、水平翻转、时间反转及其组合四种视频变体，每个样本均配有明确的空间关系问题及四选一答案选项。构建过程中严格标注真实答案，确保数据质量与评估可靠性，为模型动态空间理解能力提供结构化测试基础。

特点

DSI-Bench的突出特点在于其系统化的空间推理分类体系，涵盖静态物体与动态摄像机、动态场景中的摄像机运动、物体间距离与方位关系等六大核心维度。数据集通过多增强视角的并行设计，支持对模型空间一致性理解的鲁棒性检验。其视频问题对呈现丰富的时空交互场景，为深入探究动态视觉推理机制提供了多维度的分析视角。

使用方法

使用该数据集时，研究者可通过Hugging Face平台直接下载完整数据，并利用提供的标准接口加载视频与元数据。评估流程支持三种模式：独立样本精度计算可衡量基础性能；群体投票机制能检验模型在多增强视角下的预测一致性；单视角评估则便于分析特定变换对性能的影响。内置的并行处理与重试机制保障了大规模推理的效率与稳定性。

背景与挑战

背景概述

在计算机视觉与人工智能融合发展的背景下，动态空间智能作为认知推理的核心能力日益受到关注。DSI-Bench由浙江大学与阿里巴巴集团等机构于2025年联合推出，聚焦于动态视频场景中的空间关系理解问题。该数据集通过系统化构建包含静态摄像机下的物体运动、动态摄像机下的场景变化等六类空间任务，旨在推动机器对三维空间动态交互的深层认知，为具身智能与自动驾驶等领域的空间推理研究提供关键评估基准。

当前挑战

动态空间关系理解面临多重挑战：在领域问题层面，模型需克服视频序列中物体遮挡、视角突变与运动模糊对空间判定的干扰，同时要求具备跨帧时空关联的推理能力；在数据集构建过程中，需平衡真实场景复杂性与标注一致性矛盾，通过多视角视频采集与空间逻辑验证确保数据质量，并设计标准化评估体系以量化模型在空间变换下的鲁棒性表现。

常用场景

经典使用场景

在动态空间智能研究领域，DSI-Bench作为首个系统评估模型动态空间认知能力的基准数据集，其经典应用场景聚焦于多模态大模型的时空推理能力验证。通过提供包含标准视角、水平翻转、时序反转及其组合的四种视频增强变体，该数据集能够全面检验视觉语言模型在动态场景中对物体运动轨迹、摄像机位姿变化及空间关系演变的感知能力。研究者可利用其精心设计的六类空间推理任务，系统评估模型在复杂时空语境下的认知鲁棒性。

衍生相关工作

基于DSI-Bench的评估范式，已衍生出多类重要的相关研究工作。在模型架构创新方面，研究者开发了专门针对时空序列理解的视频语言预训练方法；在评估方法论层面，涌现出基于多视角一致性的鲁棒性评估指标。该数据集还促进了动态空间推理与因果推断的交叉研究，推动了面向开放世界理解的视频问答系统发展。其提供的标准化测试流程已成为多模态大模型在动态场景理解能力比较中的关键参照系，为后续时空推理研究的可复现性与系统性进步奠定了坚实基础。

数据集最近研究