Ego4D-M & EPIC-KITCHENS-M

github2026-04-06 更新2026-04-10 收录

下载链接：

https://github.com/yayuanli/MATT

下载链接

链接失效反馈

官方服务：

资源简介：

我们贡献了MisEngine，一个可扩展的数据引擎，产生了Ego4D-M（257K）和EPIC-KITCHENS-M（221K）数据集。这些数据集用于细粒度理解人类在自我中心视频中的错误。

We contribute MisEngine, a scalable data engine that generates the Ego4D-M (257K) and EPIC-KITCHENS-M (221K) datasets. These datasets enable fine-grained understanding of human errors in egocentric videos.

创建时间：

2026-03-18

原始信息汇总

数据集概述

数据集基本信息

数据集名称: MATT (Mistake Attribution)
关联任务: 第一人称视频中的细粒度错误理解（Mistake Attribution）
来源论文: CVPR 2026 - "Mistake Attribution: Fine-Grained Mistake Understanding in Egocentric Videos"
论文地址: https://arxiv.org/abs/2511.20525
项目主页: https://yayuanli.github.io/MATT/
许可证: MIT

包含的数据集

本项目通过数据引擎 MisEngine 构建了以下两个核心数据集：

Ego4D-M: 包含 257K 样本。
EPIC-KITCHENS-M: 包含 221K 样本。

数据标注与类别

标注目标: 超越检测错误是否发生，旨在将错误归因于：
- What: 违反了哪个语义角色。
- When: 偏差在何时变得不可逆转（不可返回点，Point-of-No-Return）。
- Where: 错误出现在帧中的哪个位置。
标签类别: 数据生成脚本产生的样本包含四种类别标签：

标签含义

0 对齐（无错位）

1 动词错位

2 参数错位

3 动词和参数均错位

数据来源与处理

数据集基于以下现有第一人称视频数据集，通过程序化生成语义角色错位样本进行增强：

Ego4D
EgoPER
EPIC-Kitchens
HoloAssist

数据构建流程 (MisEngine)

每个数据集的处理流程均涉及解析原始标注、运行语义角色标注（SRL）以提取动词/参数对、生成平衡的错位样本，并创建训练/验证/测试分割。

数据获取与准备

数据集地址: https://huggingface.co/datasets/yayuanli/MATT-Bench
帧提取: 使用各数据集目录下提供的脚本从视频中提取帧，并组织成模型数据加载器要求的特定目录结构。

关联模型

核心模型: MisFormer，一个在所有权责归属子任务上均优于特定任务SOTA方法的统一模型。
模型获取: 评估脚本会自动从 Hugging Face (mistakeattribution/<dataset>) 下载相应的模型检查点。
视觉骨干网络: 依赖于预训练的 LaViLa 模型检查点。

引用

bibtex @inproceedings{li2026mistakeattribution, title = {Mistake Attribution: Fine-Grained Mistake Understanding in Egocentric Videos}, author = {Li, Yayuan and Jain, Aadit and Bellos, Filippos and Corso, Jason J.}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2026}, }

搜集汇总

数据集介绍

构建方式

在自我中心视觉研究领域，Ego4D-M与EPIC-KITCHENS-M数据集通过创新的数据引擎MisEngine构建而成。该引擎以程序化方式对原始视频标注进行语义角色错位样本的生成，具体流程涵盖坐标映射、语义角色标注解析以及平衡样本创建。针对Ego4D数据集，首先将视频级标注映射至片段级帧坐标，随后通过分组与采样生成错位样本；对于EPIC-KITCHENS数据集，则直接读取官方标注文件，通过重命名列与分组操作构建平衡数据集。整个构建过程严格过滤了原始标注中的模糊样本，确保了数据质量与一致性。

使用方法

数据集的使用需遵循标准化的预处理与评估流程。首先需从原始视频中提取帧序列，并按照特定目录结构进行组织。评估过程通过专用脚本实现，该脚本会自动从模型库下载预训练权重。用户需指定数据集名称、帧数据路径及测试集文件，并设置相应的片段长度参数。对于模型训练，需配置分布式数据并行环境，并利用实验管理工具进行日志记录。训练脚本支持多GPU运行，允许用户指定训练集、验证集路径及输出目录。数据集的划分文件已预先提供，确保了实验的可复现性。

背景与挑战

背景概述

随着第一人称视角视频分析技术的蓬勃发展，对视频中人类行为的细粒度理解成为计算机视觉领域的前沿课题。Ego4D-M与EPIC-KITCHENS-M数据集由密歇根大学与Voxel51的研究团队于2026年提出，旨在解决第一人称视频中错误归因这一核心研究问题。该数据集通过创新的Mistake Attribution任务，不仅检测错误的发生，更深入剖析错误违反的语义角色、不可逆偏离的发生时刻及其在画面中的空间位置，为行为理解与智能辅助系统提供了前所未有的细粒度标注基准，显著推动了具身智能与人机交互领域的研究进展。

当前挑战

该数据集致力于解决第一人称视频中错误归因的细粒度理解挑战，其核心在于超越传统的错误检测，实现对错误语义角色、时间关键点及空间位置的联合精准判定。在构建过程中，研究团队面临多重挑战：首先，需要从原始视频的大规模、多源注释中，系统性地提取并映射出清晰的动词-论元对，以构建可扩展的语义角色标注体系；其次，处理原始数据中存在的标注模糊性，例如同一视频片段对应多个冲突的动词或论元标签，这要求设计鲁棒的过滤与清洗流程以确保数据质量与一致性。

常用场景

经典使用场景

在计算机视觉与人工智能领域，Ego4D-M与EPIC-KITCHENS-M数据集为第一人称视频中的错误理解任务提供了精细标注的基准。这些数据集通过系统化的数据构建引擎MisEngine，从原始的大规模自我中心视频中生成语义角色错位样本，涵盖了动作、论元或两者同时错位的多种情形。研究者通常利用这些数据集训练和评估如MisFormer等统一模型，以实现在复杂动态场景中对人类行为错误的细粒度归因分析，推动视觉理解模型向更高层次的认知推理迈进。

解决学术问题

该数据集核心解决了自我中心视频分析中长期存在的错误理解粒度不足问题。传统方法往往仅能检测错误是否发生，而Ego4D-M与EPIC-KITCHENS-M通过标注错误涉及的语义角色、不可逆偏离点（Point-of-No-Return）及其空间位置，使得模型能够深入解析错误的本质与时空演变。这不仅丰富了视频行为理解的语义层次，还为建立可解释的视觉推理系统提供了关键数据支撑，对推动人机交互、智能辅助系统等领域的算法进步具有深远意义。

实际应用

在实际应用层面，这些数据集为构建智能辅助与培训系统提供了重要基础。例如，在工业操作、医疗程序或日常烹饪等场景中，系统可通过分析第一人称视频，实时识别操作者的错误步骤并给出针对性反馈。基于数据集的模型能够精确定位错误类型与发生时机，从而提升培训效率与操作安全性。此外，在增强现实与机器人导引领域，此类细粒度错误理解能力有助于开发更自然、可靠的人机协作界面。

数据集最近研究

标签	含义
0	对齐（无错位）
1	动词错位
2	参数错位
3	动词和参数均错位