EPIC-Contact

Name: EPIC-Contact
Creator: 布里斯托大学; 马克斯·普朗克智能系统研究所
Published: 2026-06-30 01:38:12
License: 暂无描述

arXiv2026-06-30 更新2026-07-01 收录

下载链接：

https://sid2697.github.io/epic-contact

下载链接

链接失效反馈

官方服务：

资源简介：

EPIC-Contact是由布里斯托大学和马克斯·普朗克智能系统研究所联合创建的野外第一人称视角三维手-物交互姿态估计数据集，旨在解决真实复杂场景下因严重遮挡和接触模糊导致的姿态估计难题。该数据集包含2300个视频片段（共计62,300帧），涵盖9类日常物体，通过创新的双向接触标注方法提供了密集的三维手-物接触对应关系和精确的网格姿态。数据集构建过程采用基于视频上下文的顶点绘制和接触轴转移标注流程，结合EC-fit优化管道生成带物理约束的网格姿态。该数据集主要应用于增强现实/虚拟现实、机器人操作和人机交互等领域，为训练和评估在复杂真实场景中鲁棒的三维手-物联合姿态估计模型提供了关键监督数据。

EPIC-Contact is a first-person in-the-wild 3D hand-object interaction pose estimation dataset jointly developed by the University of Bristol and the Max Planck Institute for Intelligent Systems. It aims to tackle the challenges of pose estimation in realistic complex scenarios caused by severe occlusion and ambiguous contact. The dataset includes 2,300 video clips (totaling 62,300 frames) covering 9 categories of daily objects, and provides dense 3D hand-object contact correspondences and accurate mesh poses via an innovative bidirectional contact annotation method. During the dataset construction process, a video context-based vertex painting and contact axis transfer annotation pipeline is adopted, combined with the EC-fit optimization pipeline to generate physically constrained mesh poses. This dataset is mainly applied in fields such as augmented reality/virtual reality, robotic manipulation and human-computer interaction, providing critical supervised data for training and evaluating robust 3D hand-object joint pose estimation models in complex real-world scenes.

提供机构：

布里斯托大学; 马克斯·普朗克智能系统研究所

创建时间：

2026-06-30

原始信息汇总

数据集名称

EPIC-Contact

数据集简介

EPIC-Contact 是一个面向真实场景（in-the-wild）的自我中心（egocentric）3D 手-物交互数据集，旨在解决非受控、杂乱、遮挡环境下的手和物体的3D姿态估计问题。数据集基于 EPIC-Kitchens 构建，提供了密集的3D手-物接触对应关系和姿态网格（posed meshes），无需运动捕捉设备即可实现3D监督。

数据集规模

片段数：约 2,300 个（2.3K）稳定抓取片段
标注帧数：62,300 帧（62.3K）
物体类别：9 个类别

物体类别及分布

平底锅（pan）：492 个片段
盘子（plate）：437 个片段
碗（bowl）：396 个片段
瓶子（bottle）：286 个片段
玻璃杯（glass）：211 个片段
马克杯（mug）：160 个片段
杯子（cup）：121 个片段
罐子（can）：97 个片段
汤锅（saucepan）：72 个片段

标注内容

密集、双向（bijective）的3D手-物接触对应关系
姿态网格（posed meshes）：包括手和物体的3D网格
标注流程包括三个步骤：
1. 在细分后的 MANO 手上手工标注接触区域
2. 通过区域2-DoF接触轴（最多6次点击）将接触转移到物体，保留双向对应关系
3. 使用 EC-fit 优化方法拟合手和物体的姿态网格，结合接触损失、遮挡感知掩码损失和穿透损失
标注者间一致性：手部 κh = 0.61，物体 κo = 0.62

数据集特点

真实场景：涵盖杂乱的厨房背景、自然交互，包括小物体、透明物体和严重遮挡情况，避免了实验室受控环境的局限
无需运动捕捉：通过接触引导的标注方法实现3D监督
与 HOPformer 模型配套：HOPformer 是一个端到端 Transformer，利用强手部先验进行单张RGB图像的双手和物体联合姿态估计

基准测试结果（EPIC-Contact 上的 HOPformer 性能）

指标	数值	相比于先前最优方法的提升
接触偏差（CDev ↓）	20.7 mm	-9.4
平均相对旋转位置误差（MRRPEro ↓）	65.8	-12.8
平均接触偏差（MDev ↓）	11.4	-8.6
手/物平均顶点误差（ACCh/o ↓）	2.5 / 4.1	-
平均每关节位置误差（MPJPE ↓）	19.9 mm	-3.0
成功率@0.05（SR@0.05 ↑）	29.8%	+12.2
成功率@0.1（SR@0.1 ↑）	69.7%	+12.8

搜集汇总

数据集介绍

构建方式

EPIC-Contact数据集从EPIC-Kitchens中筛选出2.3K段自我中心视频片段，涵盖9类物体与手部抓取交互。首先，标注人员在细分的MANO手部网格上通过“顶点绘画”工具标注手部接触区域。随后，基于手部接触区域生成接触轴，并通过两次点击将其传递至物体表面，建立双向一一对应的手-物接触映射。最后，利用EC-fit优化管线，结合接触约束与遮挡感知的掩码损失，从单帧标注传播至整个片段，实现3D手部与物体姿态网格的估计。

特点

该数据集包含62.3K标注帧，每帧均配准了双向接触对应关系与姿态网格，其独特之处在于全部采集于真实世界的杂乱、遮挡场景，而非实验室受控环境。数据覆盖瓶子、盘子、碗等9类常用物品，集成多种抓取模式与自然光照。手部接触热图展示了丰富的抓取多样性，而物体表面接触分布则反映了常见的功能交互区域。此外，利用VLM对物体进行非均匀缩放校正，并经过多人标注一致性检验，确保了标注质量。

使用方法

该数据集主要用于训练和评估自然环境下自我中心视角的3D手-物姿态估计方法。使用时，用户可将单张RGB图像输入网络，以端到端方式联合预测双手机物体姿态。数据集提供了清晰的训练/测试划分（约2035个训练片段与237个测试片段），支持基于HOPformer等Transformer框架的方法，通过跨注意力机制将手部先验嵌入物体特征，从而提升遮挡与复杂场景下的姿态准确性。评估指标涵盖接触偏差、相对位置误差、运动平滑性及手部关键点精度等，并针对对称物体引入了对称感知的度量变体。

背景与挑战

背景概述

EPIC-Contact数据集由布里斯托大学与马克斯·普朗克智能系统研究所于2026年联合创建，旨在解决自然场景中基于自我中心视角的3D手-物体姿态估计问题。该数据集从EPIC-Kitchens中精选2,272个视频片段（62,300帧），覆盖9类日常物体，通过创新的接触点标注与优化管线，为每帧提供稠密、双射的手-物体接触对应关系及姿态网格。其核心研究问题在于突破实验室环境的局限，使模型能够应对真实场景中的严重遮挡、物体透明和杂乱背景等挑战。数据集发布后，已成为评估野外手-物体交互重建性能的重要基准，对推动增强现实、机器人操控等领域的研究具有深远影响。

当前挑战

EPIC-Contact所面临的核心挑战源于野外自我中心场景的复杂性与数据构建的艰辛。领域层面，手-物体交互中广泛存在的严重相互遮挡与模糊接触区域，使得从单张RGB图像准确恢复双手与物体的3D姿态成为难题，现有方法在自然场景中泛化能力显著不足。构建过程中，首先需要克服传统动作捕捉设备昂贵且不适于野外采集的局限；其次，设计高效的接触点标注流程极具挑战，包括如何在均匀细分的MANO网格上精确定位接触区域，以及通过仅为6次点击完成从手部到物体的双射接触映射。此外，利用视觉语言模型预估物体非均匀缩放时需兼顾精度与效率，最终通过优化管线从接触标注推导出姿态网格的全流程均需严格的质量控制与人机协同校准。

常用场景

经典使用场景

EPIC-Contact数据集主要用于自然场景下的自我中心视角3D手-物体姿态估计研究。该数据集收集了来自EPIC-Kitchens的2,272段视频片段（共计62,300帧），涵盖了9种常见物体类别（如瓶子、碗、锅等），并提供了密集的双射3D手-物体接触对应关系以及网格姿态标注。研究者可利用该数据集训练和评估从单张RGB图像中联合估计双手和物体三维姿态的深度学习模型，尤其适用于存在严重遮挡、背景杂乱以及物体透明或细小等复杂情况下的手-物交互场景。

衍生相关工作

基于EPIC-Contact数据集，研究者衍生了多项具有影响力的经典工作。其中最具代表性的当属HOPformer模型，该模型是一种端到端的Transformer架构，通过交叉注意力机制将手部先验特征注入物体特征中，实现了在一次前向传播中联合预测双手和物体的三维姿态。在ARCTIC和EPIC-Contact两个数据集上，HOPformer均取得了当时最优异的性能，成功率提升6.2个百分点，接触偏差降低75%。这一工作开创性地展示了强手部先验对提升手-物体联合姿态估计鲁棒性的价值，为后续研究奠定了重要基础。

数据集最近研究