Dyn-Bench
收藏数据集概述
数据集基本信息
- 数据集名称: Dyn-Bench (Thinking in Dynamics)
- 发布状态: 已发布
- 相关论文: Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World
- 论文状态: 已被 CVPR 2026 接收
- 论文链接: https://arxiv.org/abs/2603.12746
- 项目网站: https://dyn-bench.github.io/
- HuggingFace 数据集地址: https://huggingface.co/datasets/yu2hi13/Dyn-Bench
- 基准数据托管地址: https://huggingface.co/datasets/kairunwen/DynamicVerse
数据集内容与规模
- 视频数量: 1,000 个
- 视觉问答对数量: 7,000 对
- 动态物体定位对数量: 3,000 对
- 核心目标: 系统评估多模态大语言模型在物理4D世界中感知、跟踪和推理物体运动、场景演变和相机运动的能力。
评估维度
Dyn-Bench 包含三个评估维度,每个维度对应不同的任务后缀:
| 类别 | 任务后缀 | 描述 |
|---|---|---|
| 相机-物体 | cameraqa, cameramask |
推理物体相对于相机运动的动态 |
| 物体间 | qa, objmask |
推理物体间的交互和相对动态 |
| 物体-场景 | sceneqa, scenemask |
推理物体如何与场景交互并在场景内演变 |
评估指标
- QA 准确率: 视觉问答任务的答案匹配准确率。
- 掩码 J&F 分数: 定位任务中分割掩码 IoU (J) 和边界 F-measure (F) 的平均值。
数据获取与使用
加载数据集
可通过 HuggingFace datasets 库加载基准数据:
python
from datasets import load_dataset
dyn_bench = load_dataset("kairunwen/DynamicVerse")
评估环境配置
- 环境设置: 创建 Python 3.11 环境并安装依赖。
- 代码克隆:
git clone https://github.com/LilyYang0504/bench.git - 配置文件: 编辑
conf/config.yaml以配置数据集路径、模型路径和设备等参数。 - 运行评估: 通过
bash start_eval.sh执行评估脚本。
支持的模型列表
同时支持 QA 和掩码任务的模型
- Sa2VA 系列:
ByteDance/Sa2VA-{x}B - Sa2VA-InternVL3 系列:
ByteDance/Sa2VA-InternVL3-{x}B - Sa2VA-Qwen2.5-VL 系列:
ByteDance/Sa2VA-Qwen2_5-VL-{x}B - Sa2VA-Qwen3-VL 系列:
ByteDance/Sa2VA-Qwen3-VL-{x}B - UniPixel 系列:
PolyU-ChenLab/UniPixel-{x}B(需额外安装)
仅支持 QA 任务的模型
- InternVL3 系列:
OpenGVLab/InternVL3-{x}B - InternVL3.5 系列:
OpenGVLab/InternVL3_5-{x}B - Qwen2.5-VL 系列:
Qwen/Qwen2.5-VL-{x}B-Instruct - Qwen3-VL 系列:
Qwen/Qwen3-VL-{x}B-Instruct - Qwen3-VL-MoE:
Qwen/Qwen3-VL-235B-A22B-Instruct - LLaVA-OneVision 系列:
lmms-lab/LLaVA-One-Vision-1.5-{x}B-Instruct - SpaceR-SFT 系列:
RUBBISHLIKE/SpaceR-SFT-{x}B - VST 系列:
rayruiyang/VST-{x}B-RL - Spatial-SSRL 系列:
internlm/Spatial-SSRL-{x}B - SpatialLadder 系列:
hongxingli/SpatialLadder-{x}B
注:需将
{x}B替换为实际模型参数大小。
引用
如果使用本数据集或相关研究,请引用: bibtex @misc{huang2026thinkingdynamicsmultimodallarge, title={Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World}, author={Yuzhi Huang and Kairun Wen and Rongxin Gao and Dongxuan Liu and Yibin Lou and Jie Wu and Jing Xu and Jian Zhang and Zheng Yang and Yunlong Lin and Chenxin Li and Panwang Pan and Junbin Lu and Jingyan Jiang and Xinghao Ding and Yue Huang and Zhi Wang}, year={2026}, eprint={2603.12746}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2603.12746}, }




