EgoEditData

github2025-12-09 更新2025-12-10 收录

下载链接：

https://github.com/snap-research/EgoEdit

下载链接

链接失效反馈

官方服务：

资源简介：

一个手动整理的10万视频编辑对数据集，专注于自我中心视角下的对象替换和移除，具有挑战性的手部遮挡、交互和大幅自我运动。

A manually curated dataset of 100,000 video edit pairs, focusing on object replacement and removal from egocentric viewpoints, and featuring challenging hand occlusion, interactions and large-scale egocentric motions.

创建时间：

2025-11-29

原始信息汇总

EgoEdit 数据集概述

数据集名称

EgoEditData

核心构成

该框架包含三个主要组成部分：

EgoEditData：一个手动策划的数据集。
EgoEdit：首个用于自我中心视频编辑的实时自回归模型。
EgoEditBench：一个用于评估自我中心视频编辑系统的综合基准。

EgoEditData 数据集详情

数据规模：包含 10 万个视频编辑对。
编辑焦点：专注于自我中心视角的视频编辑。
核心编辑任务：包含物体替换和物体移除。
场景挑战性：数据涵盖具有挑战性的场景，包括手部遮挡、物体交互以及大幅度的自我运动。

模型性能

实时性：在单个 H100 GPU 上可实现实时运行。
延迟：首帧生成延迟为 855 毫秒，支持实时的增强现实交互。
保真度：在编辑忠实度上超越了如 Editverse 等先进模型，并且更符合人类判断。

发布状态

最终评审：已于 2025 年 12 月完成。
数据与基准发布：EgoEditData 数据集与 EgoEditBench 基准的初始版本即将发布。

搜集汇总

数据集介绍

构建方式

在增强现实与第一人称视觉计算领域，高质量的数据资源是推动技术革新的基石。EgoEditData的构建过程体现了对真实世界复杂性的深刻把握，其核心在于手工精心筛选了十万对视频编辑样本，专门聚焦于极具挑战性的自我中心视角场景。这些样本涵盖了物体替换与移除两大关键编辑任务，并特别纳入了手部遮挡、物体交互以及剧烈的自我运动等复杂情境，确保了数据在模拟真实人眼视觉体验方面的丰富性与代表性。

特点

该数据集的核心特征在于其针对性地捕捉了自我中心视频所固有的独特挑战。它不仅包含了大规模的手部遮挡与物体交互场景，还记录了显著的相机自身运动，这些要素共同构成了对现有视频编辑模型的严峻考验。相较于通用视频编辑数据集，EgoEditData在编辑忠实度方面展现出卓越性能，通过视觉语言模型的评估，其生成结果在语义对齐与视觉保真度上超越了现有先进模型，更贴近人类的感知与判断。

使用方法

作为专为自我中心视频编辑任务设计的基准资源，EgoEditData为模型训练与系统评估提供了标准化范本。研究者可利用该数据集训练能够实时处理遮挡与交互的编辑模型，例如配套发布的EgoEdit模型便是一个典型应用。在评估阶段，该数据集与EgoEditBench基准结合，能够系统性地量化模型在复杂第一人称场景下的编辑质量、推理速度以及对动态变化的适应能力，从而推动实时增强现实交互系统的发展。

背景与挑战

背景概述

随着增强现实与沉浸式交互技术的蓬勃发展，以第一人称视角记录的自我中心视频已成为人机交互领域的关键媒介。为应对此类视频实时编辑的需求，Snap Research、牛津大学等机构的研究团队于2025年12月正式发布了EgoEditData数据集。该数据集聚焦于自我中心视频编辑这一核心研究问题，旨在通过高质量的人工标注视频对，推动实时视频编辑模型在复杂真实场景中的应用。其构建不仅填补了该领域高质量基准数据的空白，也为后续开发低延迟、高保真的增强现实编辑系统奠定了坚实的数据基础。

当前挑战

在自我中心视频编辑领域，模型需克服因剧烈自我运动、频繁手部遮挡及动态物体交互所带来的时空一致性保持难题，确保编辑结果在视觉上自然且连贯。构建EgoEditData数据集的过程中，研究团队面临了双重挑战：一方面，需在真实且复杂的自我中心场景中精准标注对象替换与移除的编辑对，这要求标注者具备对场景动态与遮挡关系的深刻理解；另一方面，为确保数据质量与多样性，必须精心设计采集流程，以涵盖大量具有挑战性的交互情境，同时维持编辑意图的清晰性与标注的一致性。

常用场景

经典使用场景

在增强现实与第一人称视觉计算领域，EgoEditData数据集为研究者在复杂动态场景下的视频编辑任务提供了关键支撑。该数据集最经典的使用场景集中于模拟真实世界中的第一人称视角交互，例如在用户进行日常活动时，对视野中特定物体进行实时替换或移除。通过包含大量手部遮挡、物体交互以及剧烈自我运动等挑战性条件，它使得模型能够在高度动态且视觉干扰频繁的环境中学习稳定的编辑能力，为后续的实时处理算法开发奠定了数据基础。

实际应用

在实际应用层面，EgoEditData直接服务于下一代增强现实交互系统与实时内容创作工具。基于该数据集训练的模型能够部署于移动设备或边缘计算单元，实现用户在佩戴头戴式设备或智能眼镜时，对周围环境中的物体进行实时视觉修改或信息增强。例如，在工业维护中可虚拟替换故障部件以指导操作，或在零售体验中动态移除货架上的特定商品以预览布局效果。这种低延迟、高保真的编辑能力为沉浸式远程协作、交互式娱乐以及智能辅助应用开辟了新的技术路径。

衍生相关工作

围绕EgoEditData，已衍生出一系列重要的相关研究工作。其中最核心的是与其配套提出的EgoEdit模型，该模型作为首个实时自回归的第一人称视频编辑系统，在基准测试中展示了优越的编辑忠实度与人类偏好对齐。同时，社区基于此数据集进一步开发了EgoEditBench这一综合性评估基准，为不同编辑方法的性能比较提供了标准化平台。这些工作共同构建了一个从数据、模型到评估的完整研究生态，激励了后续在自我中心视频理解、实时生成模型优化以及多模态交互编辑等方向的深入探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集