MMSI-Video-Bench
收藏github2025-12-12 更新2025-12-13 收录
下载链接:
https://github.com/InternRobotics/MMSI-Video-Bench
下载链接
链接失效反馈官方服务:
资源简介:
MMSI-Video-Bench是一个全面人工标注的基准测试,用于评估多模态大语言模型中的视频空间智能。它通过1,106个问题实现了一个四级框架——感知、规划、预测和跨视频推理,这些问题基于来自25个公共数据集和内部录制的1,278个视频片段。数据集具有高质量、挑战性、多样化的视频来源和全面的任务覆盖范围。
MMSI-Video-Bench is a comprehensively manually annotated benchmark for evaluating video spatial intelligence in multimodal large language models. It establishes a four-level framework—perception, planning, prediction, and cross-video reasoning—with 1,106 questions, which are grounded in 1,278 video clips sourced from 25 public datasets and internally recorded materials. The dataset features high quality, high challenge, diverse video sources, and comprehensive task coverage.
创建时间:
2025-12-10
原始信息汇总
MMSI-Video-Bench 数据集概述
数据集基本信息
- 数据集名称:MMSI-Video-Bench
- 核心定位:一个用于评估多模态大语言模型视频空间智能的全人工标注基准
- 发布日期:2025年12月
- 官方主页:https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
- 论文地址:https://arxiv.org/abs/2512.10863
- 数据集地址:https://huggingface.co/datasets/rbler/MMSI-Video-Bench
- 许可证:Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)
数据集构成与规模
- 问题数量:1,106 个问题
- 视频片段数量:1,278 个视频片段
- 视频来源:来自25个公开数据集及1个内部采集数据
- 标注人员:11位3D视觉领域的专家
- 数据质量:所有数据均经过人工标注,并遵循严格的审核与验收流程以确保准确性和可靠性
核心特征
- 高质量:全人工标注,专家审核。
- 挑战性:评估显示存在显著的人机差距,最佳推理模型性能仍落后人类近60%。
- 视频来源多样:涵盖桌面录制、室内及多层环境、户外场景、体育和电影素材。
- 任务覆盖全面:涵盖空间布局推理、运动理解、决策制定和跨视频推理,提供对视频空间智能的更全面评估。
任务分类与框架
数据集通过一个四级框架组织问题:
- 感知
- 规划
- 预测
- 跨视频推理
具体包含以下5个主要问题类别:
- 空间构建:关注实例与场景的空间属性,以及实例、场景与相机之间的空间关系(共6个子类型)。
- 运动理解:包括理解相机运动、实例运动以及实例间的交互运动。
- 规划:基于时空视频信息进行规划。
- 预测:评估模型基于观察视频预测、预期或想象未来状态的能力。
- 跨视频推理:涉及跨时间分离视频片段的记忆更新,以及跨不同视角拍摄视频的多视图整合。
数据内容与获取
数据集在Hugging Face上提供,包含以下文件:
- 标注文件:
mmsivideo.json - 问题参考图像:
ref_images.zip - 视频帧:
frames.zip - (可选)原始视频文件:
videos.zip
评估设置
提供两种评估设置:
- Uniform-50:由于部分模型存在输入长度限制而提供。
- Sufficient-Coverage:确保所有视频信息完全保留,推荐使用此设置进行评估。
基准测试结果摘要
评估了25个强大的开源和专有MLLMs。
主基准排名(Sufficient-Coverage设置前三名)
- O3:平均得分37.34%(专有模型)
- Gemini 2.5 Flash (Thinking):平均得分36.71%(专有模型)
- Gemini 2.5 Flash:平均得分36.62%(专有模型)
人类基线表现
- Human:平均得分96.4%
- Random Guessing:平均得分24.1%
子基准表现最佳模型
- 机器人子基准:Gemini 3 Pro (40.20%)
- 室内场景感知子基准:GPT-5 (41.68%)
- Grounding子基准:Gemini 2.5 Flash (38.81%)
致谢
MMSI-Video-Bench使用了来自25个开源数据集的数据,包括Roomtour3d, ScanNet, ScanNet++, 3RScan, ARKitScenes, RealEstate10k, DL3DV, Waymo, NuScenes, OVIS, TrackingNet, LaSOT, UAV123, Ego4D, EPIC-KITCHENS, EgoExoLearn, MultiSports, charades, LEMMA, TF2023, CVMHT, AVA, DROID, RH20T, DTU。
搜集汇总
数据集介绍

构建方式
在视频空间智能评估领域,MMSI-Video-Bench的构建遵循了严谨的学术规范。该数据集从25个公开视频数据集及自主采集内容中精选了1,278个视频片段,并以此为基础设计了1,106道人工标注问题。整个标注流程由11位三维视觉领域的专家协同完成,每道题目均经过严格的审核与验收机制,确保空间关系标注的精确性与逻辑一致性。这种多源数据融合与专家级标注体系,为评估模型在复杂场景下的空间认知能力奠定了坚实基础。
特点
该数据集最显著的特征在于其构建的四层评估框架——感知、规划、预测与跨视频推理,全面覆盖了空间智能的核心维度。其问题设计涵盖空间建构、运动理解、决策规划等五大类别,并特别设置了机器人操作、室内场景感知等专项子基准。数据集视频来源极具多样性,既包含桌面录制、室内多楼层环境,也涵盖户外场景与影视素材,这种多层次、多场景的覆盖方式有效避免了评估偏差,为模型能力提供了立体化测评维度。
使用方法
研究者可通过Hugging Face平台获取数据集的标注文件、参考图像及视频帧序列。评估时建议采用充分覆盖设置以确保视频信息的完整性,避免因输入长度限制导致关键空间线索丢失。开源代码库提供了标准化的推理与评估流程,支持对主流多模态大模型进行统一测评。用户可根据研究需求选择主基准或特定子基准进行评估,系统将自动生成模型在空间感知、运动推理等维度的量化得分,为模型能力诊断提供精细化分析工具。
背景与挑战
背景概述
随着多模态大语言模型在视觉理解领域的飞速发展,评估模型对视频中空间信息的深度认知能力成为一项关键需求。MMSI-Video-Bench基准数据集于2025年由研究团队创建,旨在系统评估视频驱动的空间智能。该数据集构建了一个涵盖感知、规划、预测与跨视频推理的四层框架,通过1,106道基于1,278个视频片段的问题,全面检验模型在空间布局推理、运动理解及决策制定等方面的综合能力。其视频源融合了25个公开数据集及内部采集内容,覆盖桌面记录、室内外场景乃至体育与影视素材,为相关领域提供了首个全人工标注、高质量且多维度的评估标准,显著推动了视频空间智能研究的规范化与深入化。
当前挑战
该数据集致力于解决视频空间智能评估中存在的核心挑战,即如何系统量化模型对复杂时空关系的理解能力。传统视频问答基准多侧重于表层描述或简单动作识别,难以衡量模型在三维空间推理、未来状态预测及跨片段信息整合等高阶认知任务上的表现。在构建过程中,研究团队面临多重困难:一是确保标注的严谨性与一致性,需由11位三维视觉领域专家进行人工标注与多层审核,以维持数据的高可靠性;二是整合多样化的视频来源,涉及不同场景、视角与拍摄条件,对数据的标准化处理与对齐提出了较高要求;三是设计具有足够区分度的复杂问题,以真实反映当前先进模型与人类表现之间近60%的性能差距,从而精准揭示技术瓶颈。
常用场景
经典使用场景
在视频理解与空间智能领域,MMSI-Video-Bench作为一项综合性评估基准,其经典使用场景集中于系统性地评测多模态大语言模型在视频内容中的空间推理能力。该基准通过感知、规划、预测及跨视频推理四个层级框架,构建了涵盖空间构造、运动理解、决策与未来状态预测的多样化任务。研究者可借助其精心标注的1106个问题与1278段视频片段,对模型在复杂动态场景下的空间认知性能进行标准化测试与横向比较,从而深入探索模型在理解三维布局、物体运动轨迹以及跨视角信息整合方面的潜力。
解决学术问题
该数据集有效应对了当前视频空间智能评估中存在的碎片化与局限性问题,为学术界提供了统一且全面的评测体系。它解决了以往基准往往侧重单一任务、缺乏层次化评估框架的困境,通过融合25个公开数据集与自主采集视频,覆盖了从桌面环境到户外场景的广泛空间类型。其意义在于首次以人类标注的高质量数据为基础,量化揭示了先进模型与人类表现之间近60%的显著差距,为识别模型在空间推理中的薄弱环节、推动更具泛化能力与认知深度的视频理解模型发展提供了关键实证依据。
衍生相关工作
围绕该数据集,已衍生出一系列针对视频空间智能的深入分析与模型改进研究。许多工作基于其揭示的性能差距,探索了增强模型时空表征学习、引入物理常识推理模块以及设计新型跨视频注意力机制等技术路径。同时,其细分的机器人、室内感知与接地子基准也催生了面向特定应用场景的专用模型评估与优化,促进了领域内对多模态模型在结构化空间任务中能力边界的系统性认识,并为后续构建更高效、更鲁棒的视频理解架构奠定了坚实的实验基础。
以上内容由遇见数据集搜集并总结生成



