MMSI-Video-Bench

Hugging Face2025-12-11 更新2025-12-12 收录

下载链接：

https://huggingface.co/datasets/rbler/MMSI-Video-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MMSI-Video-Bench是一个全面的视频空间智能基准测试数据集，包含多项选择题、视觉问答和视频文本到文本任务。数据集包括每个问题对应的关键帧（frames.zip）、原始视频数据（videos.zip，可选）、问题描述中使用的参考图像（ref_images.zip）以及MMSI-Video-Bench的标注文件（mmsivideo.json）。每个样本包含问题ID、问题类型、参考图像列表、原始问题文本、选项、关键帧列表、视频段信息、系统提示、任务提示、用户提示、格式提示和正确答案。数据集用于评估模型在视频空间智能任务中的表现，并提供了详细的评估指南和模型排行榜。

创建时间：

2025-12-10

原始信息汇总

MMSI-Video-Bench 数据集概述

基本信息

数据集名称: MMSI-Video-Bench
主页: https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
论文: 未提供链接
代码仓库: https://github.com/InternRobotics/MMSI-Video-Bench
许可协议: CC
任务类别: 多项选择、视觉问答、视频文本到文本
语言: 英语
数据规模: 1K < n < 10K

数据集描述

MMSI-Video-Bench 是一个用于评估视频空间智能的综合性基准测试。数据集包含以下文件：

frames.zip: 包含每个问题对应的所有关键帧。
videos.zip: 包含所有原始视频数据（可选）。
ref_images.zip: 包含问题描述中使用的参考图像。
mmsivideo.json: 对应 MMSI-Video-Bench 的标注文件。

数据样本格式

每个样本采用以下JSON格式： python { "id": "question_0004", "type": "Planning", // 问题类型（例如：空间构建、运动理解、规划、预测、跨视图推理） "ref_images": ["question_0004/image_content_1.png"], // 与问题关联的参考图像列表 "ori_question": "原始问题文本；可能包含如<image>的占位符，指示参考图像的显示位置", "options": ["选项A", "..."], // 多项选择选项 "frames_list": [["question_0004/dl3dv_0015_0/00:00.00_frame_1.00_0.jpg", "..."]], // 对应视频片段的关键帧列表 "video_list": [{"path": "question_0004/dl3dv_0015_0.mp4", "start": 0.0, "end": 30.0, "base_fps": 1.0}], // 对应视频片段的信息列表 "system_prompt": "系统提示词", "task_prompt": "任务提示词", "user_prompt": "用户提示词", "format_prompt": "格式提示词", "ground_truth": "D" // 正确答案 }

评估

评估指南请参考代码仓库：https://github.com/InternRobotics/MMSI-Video-Bench。

排行榜

数据集提供了多个设置和子基准的模型性能排行榜。

Uniform-50 设置

最佳模型: Gemini 3 pro (37.97%)
人类基准: 96.40%
随机猜测基准: 24.10%

Sufficient-Coverage 设置

最佳模型: O3 (37.34%)
人类基准: 96.4%
随机猜测基准: 24.10%

机器人子基准

最佳模型: Gemini 3 Pro (40.20%)

室内场景感知子基准

最佳模型: GPT-5 (41.68%)

接地子基准

最佳模型: Gemini 2.5 Flash (38.81%)

注意: 对于三个子基准，我们取每个模型在两个设置中的较高分以便展示。

搜集汇总

数据集介绍

构建方式

在视频空间智能评估领域，MMSI-Video-Bench的构建体现了严谨的工程化设计。该数据集通过精心设计的视频片段、关键帧序列以及配套的参考图像，系统性地构建了涵盖空间构建、运动理解、规划、预测与跨视图推理等多种任务类型的问答对。每个样本均以结构化JSON格式组织，包含原始问题文本、多项选择选项、对应的视频与帧列表、以及用于模型提示的系统与任务指令，确保了数据在模态对齐与任务逻辑上的一致性。

使用方法

使用该数据集进行评估时，研究者需加载包含所有标注的JSON文件，并依据样本中的提示模板构建完整的输入序列。模型需要综合处理视频帧或视频片段、参考图像以及文本问题，从给定的多项选项中选出正确答案。评估过程支持两种设置：Uniform-50与Sufficient-Coverage，并可进一步在机器人、室内感知与定位三个子基准上进行细粒度分析，以全面衡量模型在视频空间推理任务上的性能。

背景与挑战

背景概述

在人工智能与机器人技术融合发展的浪潮中，空间智能作为实现机器理解三维环境并执行复杂任务的核心能力，已成为前沿研究的关键方向。MMSI-Video-Bench数据集由InternRobotics团队于2025年12月正式发布，旨在构建一个全面评估视频空间智能的基准测试。该数据集聚焦于空间构建、运动理解、规划、预测及跨视角推理等核心研究问题，通过融合视频、关键帧与参考图像等多模态数据，系统性地检验模型在动态场景中的空间认知与推理能力。其发布不仅为视频理解与具身智能领域提供了严谨的评估工具，更推动了多模态大模型在复杂空间任务上的性能边界探索。

当前挑战

MMSI-Video-Bench所针对的领域挑战在于，现有视频理解模型往往局限于表观特征识别或简单时序关联，难以支撑对三维空间结构、动态物体交互及多视角几何关系的深层推理。构建过程中的挑战则体现在多模态数据的对齐与标注上：视频关键帧的提取需平衡信息密度与计算效率；空间规划类问题的设计需要精确的环境建模与路径可行性验证；而参考图像与视频内容的语义衔接，则要求标注具备高度的空间一致性与逻辑严谨性，以确保评估任务既反映真实场景复杂度，又避免歧义干扰。

常用场景

经典使用场景

在视频空间智能领域，MMSI-Video-Bench数据集为评估多模态大模型在复杂空间推理任务上的性能提供了标准化测试平台。其经典使用场景集中于要求模型结合视频序列与参考图像，完成诸如路径规划、运动理解和跨视角推理等多项选择题。通过提供鸟瞰视角视频与地面方位图像的组合，该数据集模拟了真实世界中需要动态空间认知的情境，成为衡量模型是否具备人类级别空间智能的关键基准。

解决学术问题

该数据集有效解决了视频理解研究中长期存在的空间推理能力量化难题。传统视频问答数据集多关注物体识别或简单动作描述，而MMSI-Video-Bench通过精心设计的空间构造、预测和规划等任务类型，将研究焦点引向更深层的时空关系理解。其意义在于建立了首个系统评估视频空间智能的基准，揭示了当前最先进模型与人类表现之间的显著差距，为后续研究指明了提升空间认知能力的技术方向。

实际应用

在实际应用层面，MMSI-Video-Bench所针对的空间智能能力对自主机器人导航、增强现实交互和智能监控系统具有直接价值。例如，在室内服务机器人场景中，模型需要根据环境视频理解空间布局并规划最优路径；在建筑巡检领域，系统可通过跨视角推理识别结构关系。该数据集的评估框架为这些应用提供了可靠的性能验证标准，推动了具身智能系统在复杂物理环境中的实用化进程。

数据集最近研究