M3-Bench

github2025-08-14 更新2025-08-15 收录

下载链接：

https://github.com/ByteDance-Seed/m3-agent

下载链接

链接失效反馈

官方服务：

资源简介：

M3-Bench是一个长视频问答数据集，旨在评估多模态代理在长期记忆中进行推理的能力。该数据集包含两个子集：M3-Bench-robot，包含100个从机器人第一人称视角记录的实景视频；M3-Bench-web，包含929个网络来源的视频，涵盖更广泛的内容和场景。

M3-Bench is a long-form video question answering dataset designed to evaluate the reasoning capabilities of multimodal agents when performing inference based on long-term memory. The dataset comprises two subsets: M3-Bench-robot, which contains 100 real-world videos recorded from a first-person perspective of a robot; and M3-Bench-web, which includes 929 videos sourced from the web, covering a wider range of content and scenarios.

创建时间：

2025-07-30

原始信息汇总

M3-Bench 数据集概述

数据集简介

名称：M3-Bench
类型：长视频问答数据集
目的：评估多模态代理在长期记忆基础上的推理能力

数据集组成

M3-Bench-robot：
- 包含100个真实世界视频
- 从机器人第一人称视角录制
M3-Bench-web：
- 包含929个网络来源视频
- 覆盖更广泛的内容和场景

数据内容

每个实例包含：
- 一个长视频（模拟代理的感知输入）
- 一系列开放式问答对
问答任务设计目标：
- 评估多模态代理构建一致可靠长期记忆的能力
- 评估基于记忆的有效推理能力

数据获取

M3-Bench-robot视频：
- 下载地址：https://huggingface.co/datasets/ByteDance-Seed/M3-Bench/tree/main/videos/robot
M3-Bench-web视频：
- 通过data/annotations/web.json中的video_url获取

可选数据

中间输出：
- 下载地址：https://huggingface.co/datasets/ByteDance-Seed/M3-Bench/tree/main/intermediate_outputs
记忆图：
- 下载地址：https://huggingface.co/datasets/ByteDance-Seed/M3-Bench/tree/main/memory_graphs

引用

BibTeX @misc{long2025seeing, title={Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory}, author={Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li}, year={2025}, eprint={2508.09736}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

在构建M3-Bench数据集的过程中，研究者们精心设计了两种不同来源的视频子集以模拟真实场景下的多模态输入。M3-Bench-robot子集包含100段从机器人第一视角拍摄的现实场景视频，通过专业设备捕捉真实环境中的视觉和听觉信息。M3-Bench-web子集则收集了929段网络视频，覆盖更广泛的内容和情境。每个数据实例都配有精心标注的开放式问答对，这些标注工作由专业团队完成，旨在评估智能体在长期记忆构建和推理方面的能力。数据集的构建特别注重实体中心化的多模态记忆组织方式，以支持更深层次的环境理解。

特点

M3-Bench数据集最显著的特点在于其专注于长期视频理解与记忆推理的评估。数据集包含的问答对专门设计用于测试智能体在人类理解、常识提取和跨模态推理等关键能力。视频时长显著长于传统视频问答数据集，能更真实地模拟智能体持续感知的环境。数据多样性体现在两个子集的互补性上：机器人视角视频提供真实场景的连续观察，而网络视频则扩展了场景覆盖范围。数据集还提供了可选的中问输出和记忆图谱，为研究者提供了灵活的分析维度。

使用方法

使用M3-Bench数据集时，研究者可通过HuggingFace平台直接下载预处理好的视频和标注数据。对于需要自定义处理的用户，数据集提供了完整的处理流程：先将长视频分割为30秒片段，然后通过专用工具生成面部检测和说话人分离等中问输出，最后利用提供的记忆模型构建多模态记忆图谱。评估阶段可使用控制模型进行问答生成，并调用GPT-4o等大模型进行自动评分。数据集还支持与其他模型的对比实验，通过修改提示模板即可适配不同的多模态大模型。完整的本地运行需要配置指定的Python环境和相关模型权重。

背景与挑战

背景概述

M3-Bench是由字节跳动Seed团队于2025年推出的多模态长视频问答基准数据集，旨在评估智能代理在长期记忆构建与推理方面的能力。该数据集包含两个子集：M3-Bench-robot收录了100段机器人第一视角拍摄的现实场景视频，M3-Bench-web则整合了929段网络来源的多样化场景视频。数据集通过精心设计的问答对，重点考察智能体在人类行为理解、跨模态推理和知识提取等关键能力上的表现。作为多模态代理研究领域的重要基础设施，M3-Bench为突破传统短时记忆模型的局限提供了标准化评估框架，其创新性的实体中心化多模态记忆架构对推动具身智能发展具有显著意义。

当前挑战

M3-Bench着力解决长视频理解中三大核心挑战：跨模态时序关联的建模困难、长期依赖关系的捕捉瓶颈，以及实体级语义记忆的构建难题。在数据构建阶段，研究团队面临真实场景视频标注成本高昂、多模态信号对齐复杂度高，以及长程语义一致性维护等实际困难。特别值得注意的是，机器人视角视频存在运动模糊和视角受限等固有缺陷，而网络视频则需处理内容质量和版权合规等衍生问题。这些挑战促使研究者开发了创新的强化学习训练范式，最终使M3-Agent在基准测试中相较传统方法取得显著提升。

常用场景

经典使用场景

在人工智能领域，多模态长时记忆代理的研究正逐渐成为热点。M3-Bench数据集作为评估多模态代理长时记忆能力的基准，其经典使用场景主要集中在长视频问答任务上。通过提供机器人视角的真实世界视频和网络来源的多样化视频，研究者能够测试代理在复杂场景下的记忆构建、信息检索和跨模态推理能力。该数据集特别适合评估代理对人类行为理解、常识知识提取等关键能力的表现。

实际应用

在实际应用层面，M3-Bench数据集支撑了多种智能系统的开发。基于该数据集训练的代理可应用于智能家居助手、服务机器人等场景，实现持续的环境理解和任务执行。特别是在需要长期观察和记忆的场合，如老年护理、家庭监控等领域，该数据集培养的代理能够更好地理解人类行为模式，提供个性化的服务。数据集涵盖的多样化场景也确保了代理的泛化能力。

衍生相关工作

围绕M3-Bench数据集，研究者们开展了一系列创新性工作。最具代表性的是M3-Agent框架，它通过强化学习实现了记忆构建和任务执行的协同优化。此外，基于该数据集的记忆图可视化工具、跨模态检索算法等衍生工作也丰富了多模态代理的研究生态。这些工作不仅验证了数据集的实用价值，更为后续研究提供了重要的技术参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集