Dyn-Bench

github2026-03-19 更新2026-03-21 收录

下载链接：

https://github.com/Dynamics-X/Thinking-in-Dynamics

下载链接

链接失效反馈

官方服务：

资源简介：

Dyn-Bench是一个大规模基准测试，包含1k视频、7k VQA对和3k动态对象基础对，用于评估多模态大型语言模型在物理4D世界中对对象运动、场景演化和相机运动的感知、跟踪和推理能力。

Dyn-Bench is a large-scale benchmark consisting of 1,000 videos, 7,000 VQA pairs and 3,000 dynamic object foundational pairs, designed to evaluate the perception, tracking and reasoning capabilities of multimodal large language models (LLMs) regarding object motion, scene evolution and camera motion in the physical 4D world.

创建时间：

2026-03-01

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Dyn-Bench (Thinking in Dynamics)
发布状态: 已发布
相关论文: Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World
论文状态: 已被 CVPR 2026 接收
论文链接: https://arxiv.org/abs/2603.12746
项目网站: https://dyn-bench.github.io/
HuggingFace 数据集地址: https://huggingface.co/datasets/yu2hi13/Dyn-Bench
基准数据托管地址: https://huggingface.co/datasets/kairunwen/DynamicVerse

数据集内容与规模

视频数量: 1,000 个
视觉问答对数量: 7,000 对
动态物体定位对数量: 3,000 对
核心目标: 系统评估多模态大语言模型在物理4D世界中感知、跟踪和推理物体运动、场景演变和相机运动的能力。

评估维度

Dyn-Bench 包含三个评估维度，每个维度对应不同的任务后缀：

类别	任务后缀	描述
相机-物体	`cameraqa`, `cameramask`	推理物体相对于相机运动的动态
物体间	`qa`, `objmask`	推理物体间的交互和相对动态
物体-场景	`sceneqa`, `scenemask`	推理物体如何与场景交互并在场景内演变

评估指标

QA 准确率: 视觉问答任务的答案匹配准确率。
掩码 J&F 分数: 定位任务中分割掩码 IoU (J) 和边界 F-measure (F) 的平均值。

数据获取与使用

加载数据集

可通过 HuggingFace datasets 库加载基准数据： python from datasets import load_dataset dyn_bench = load_dataset("kairunwen/DynamicVerse")

评估环境配置

环境设置: 创建 Python 3.11 环境并安装依赖。
代码克隆: git clone https://github.com/LilyYang0504/bench.git
配置文件: 编辑 conf/config.yaml 以配置数据集路径、模型路径和设备等参数。
运行评估: 通过 bash start_eval.sh 执行评估脚本。

支持的模型列表

同时支持 QA 和掩码任务的模型

Sa2VA 系列: ByteDance/Sa2VA-{x}B
Sa2VA-InternVL3 系列: ByteDance/Sa2VA-InternVL3-{x}B
Sa2VA-Qwen2.5-VL 系列: ByteDance/Sa2VA-Qwen2_5-VL-{x}B
Sa2VA-Qwen3-VL 系列: ByteDance/Sa2VA-Qwen3-VL-{x}B
UniPixel 系列: PolyU-ChenLab/UniPixel-{x}B (需额外安装)

仅支持 QA 任务的模型

InternVL3 系列: OpenGVLab/InternVL3-{x}B
InternVL3.5 系列: OpenGVLab/InternVL3_5-{x}B
Qwen2.5-VL 系列: Qwen/Qwen2.5-VL-{x}B-Instruct
Qwen3-VL 系列: Qwen/Qwen3-VL-{x}B-Instruct
Qwen3-VL-MoE: Qwen/Qwen3-VL-235B-A22B-Instruct
LLaVA-OneVision 系列: lmms-lab/LLaVA-One-Vision-1.5-{x}B-Instruct
SpaceR-SFT 系列: RUBBISHLIKE/SpaceR-SFT-{x}B
VST 系列: rayruiyang/VST-{x}B-RL
Spatial-SSRL 系列: internlm/Spatial-SSRL-{x}B
SpatialLadder 系列: hongxingli/SpatialLadder-{x}B

注：需将 {x}B 替换为实际模型参数大小。

引用

如果使用本数据集或相关研究，请引用： bibtex @misc{huang2026thinkingdynamicsmultimodallarge, title={Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World}, author={Yuzhi Huang and Kairun Wen and Rongxin Gao and Dongxuan Liu and Yibin Lou and Jie Wu and Jing Xu and Jian Zhang and Zheng Yang and Yunlong Lin and Chenxin Li and Panwang Pan and Junbin Lu and Jingyan Jiang and Xinghao Ding and Yue Huang and Zhi Wang}, year={2026}, eprint={2603.12746}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2603.12746}, }

搜集汇总

数据集介绍

构建方式

在动态视觉理解领域，Dyn-Bench的构建体现了对多模态大语言模型在物理四维世界中动态感知能力的系统性探索。该数据集从多样化的真实世界与合成视频数据源中精心整合而成，涵盖了1000个视频样本，并在此基础上生成了7000个视觉问答对与3000个动态物体定位对。构建过程注重时空动态的层次化表征，通过标注对象运动、场景演化与相机运动等多维度动态信息，形成了覆盖相机-物体、物体间交互以及物体-场景关系三大评估维度的结构化基准。

使用方法

为便于研究社区使用，Dyn-Bench已托管于HuggingFace平台，用户可通过标准的`datasets`库进行便捷加载。评估框架提供了完整的代码库，支持用户配置模型路径与任务类型，并执行自动化评测流程。使用前需配置Python环境并安装依赖项，通过修改配置文件指定数据集与模型路径后，运行提供的脚本即可完成对支持问答与掩码任务的多模态大语言模型的性能评估。

背景与挑战

背景概述

在计算机视觉与人工智能领域，理解动态物理世界中的时空演变是迈向通用智能的关键一步。Dyn-Bench数据集由厦门大学、清华大学等机构的研究团队于2026年创建，旨在系统评估多模态大语言模型在物理四维世界中对物体运动、场景演化和相机运动的感知、追踪与推理能力。该数据集包含1000个视频、7000个视觉问答对及3000个动态物体定位对，通过构建相机-物体、物体间、物体-场景三大评估维度，为核心研究问题——即模型是否具备“动态思维”——提供了严谨的基准测试平台，对推动时空理解与动态推理研究具有重要影响力。

当前挑战

Dyn-Bench所针对的领域挑战在于，现有多模态大语言模型虽在静态视觉理解上表现卓越，却难以同步实现强时空推理与动态物体定位，常对运动与交互产生不一致的解读。构建过程中的挑战则体现在数据集的综合设计与标注上：需从多样化的真实世界与合成视频数据源中整合资源，并系统构建涵盖不同动态交互类型的评估任务，以确保基准的鲁棒性与可扩展性，同时平衡语言问答与视觉定位任务之间的评估一致性。

常用场景

经典使用场景

在动态视觉理解领域，Dyn-Bench作为一项系统性基准测试，其经典使用场景在于评估多模态大语言模型对物理四维世界中时空动态的感知与推理能力。该数据集通过整合一千个视频、七千个视觉问答对及三千个动态物体定位对，构建了涵盖相机-物体、物体间、物体-场景三个维度的评估框架。研究者可借助此基准，系统性地检验模型在追踪物体运动、解析场景演变以及理解相机运动等方面的综合表现，从而揭示模型在动态场景理解中的优势与局限。

解决学术问题

Dyn-Bench致力于解决多模态大语言模型在动态场景理解中存在的关键学术问题，即模型如何超越静态视觉分析，实现对时空连续变化的精准感知与逻辑推理。该数据集通过设计结构化的评估任务，有效揭示了现有模型在动态物体定位与时空推理之间存在的性能不一致性，常对运动与交互产生矛盾解释。其意义在于为动态视觉理解建立了可量化的评估标准，推动了模型在融合视觉线索与时间维度上的能力演进，为构建真正具备“动态思维”的智能体奠定了理论基础。

实际应用

在实际应用层面，Dyn-Bench所针对的动态场景理解能力是自动驾驶、机器人导航、智能监控等关键领域的核心技术需求。例如，在自动驾驶系统中，车辆需实时感知周围物体运动轨迹、预测交互行为并理解场景动态演变，以做出安全决策。该数据集通过模拟真实世界与合成视频中的复杂动态，为模型在实际部署前的性能验证提供了可靠基准，有助于提升智能系统在动态环境中的鲁棒性与适应性，推动相关技术从实验室走向产业化落地。

数据集最近研究