MMSI-Video-Bench
收藏MMSI-Video-Bench 数据集概述
基本信息
- 数据集名称: MMSI-Video-Bench
- 主页: https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
- 论文: 未提供链接
- 代码仓库: https://github.com/InternRobotics/MMSI-Video-Bench
- 许可协议: CC
- 任务类别: 多项选择、视觉问答、视频文本到文本
- 语言: 英语
- 数据规模: 1K < n < 10K
数据集描述
MMSI-Video-Bench 是一个用于评估视频空间智能的综合性基准测试。数据集包含以下文件:
frames.zip: 包含每个问题对应的所有关键帧。videos.zip: 包含所有原始视频数据(可选)。ref_images.zip: 包含问题描述中使用的参考图像。mmsivideo.json: 对应 MMSI-Video-Bench 的标注文件。
数据样本格式
每个样本采用以下JSON格式: python { "id": "question_0004", "type": "Planning", // 问题类型(例如:空间构建、运动理解、规划、预测、跨视图推理) "ref_images": ["question_0004/image_content_1.png"], // 与问题关联的参考图像列表 "ori_question": "原始问题文本;可能包含如<image>的占位符,指示参考图像的显示位置", "options": ["选项A", "..."], // 多项选择选项 "frames_list": [["question_0004/dl3dv_0015_0/00:00.00_frame_1.00_0.jpg", "..."]], // 对应视频片段的关键帧列表 "video_list": [{"path": "question_0004/dl3dv_0015_0.mp4", "start": 0.0, "end": 30.0, "base_fps": 1.0}], // 对应视频片段的信息列表 "system_prompt": "系统提示词", "task_prompt": "任务提示词", "user_prompt": "用户提示词", "format_prompt": "格式提示词", "ground_truth": "D" // 正确答案 }
评估
评估指南请参考代码仓库:https://github.com/InternRobotics/MMSI-Video-Bench。
排行榜
数据集提供了多个设置和子基准的模型性能排行榜。
Uniform-50 设置
- 最佳模型: Gemini 3 pro (37.97%)
- 人类基准: 96.40%
- 随机猜测基准: 24.10%
Sufficient-Coverage 设置
- 最佳模型: O3 (37.34%)
- 人类基准: 96.4%
- 随机猜测基准: 24.10%
机器人子基准
- 最佳模型: Gemini 3 Pro (40.20%)
室内场景感知子基准
- 最佳模型: GPT-5 (41.68%)
接地子基准
- 最佳模型: Gemini 2.5 Flash (38.81%)
注意: 对于三个子基准,我们取每个模型在两个设置中的较高分以便展示。




