HD-EPIC

Name: HD-EPIC
Creator: 布里斯托尔大学，莱顿大学，新加坡管理大学，巴斯大学
Published: 2025-02-06 23:25:05
License: 暂无描述

arXiv2025-02-06 更新2025-02-10 收录

下载链接：

http://hd-epic.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

HD-EPIC是由布里斯托尔大学等机构提出的一个高度详细的第一人称视频数据集，包含新收集的基于厨房的egocentric视频，手工注释有高度详细且相互关联的地面真实标签，涵盖食谱步骤、细粒度动作、原料及其营养成分、移动物体和音频注释。该数据集总计41小时的视频，涵盖9个厨房的413个厨房设备的数字双胞胎，捕捉69个食谱，59K个细粒度动作，51K个音频事件，20K个物体移动和37K个物体遮罩，提升至3D。

HD-EPIC is a highly detailed first-person video dataset proposed by institutions such as the University of Bristol. It contains newly collected kitchen-focused egocentric videos, with hand-annotated, highly detailed and interconnected ground-truth labels covering recipe steps, fine-grained actions, ingredients and their nutritional compositions, moving objects, and audio annotations. The dataset totals 41 hours of video, encompassing digital twins of 413 kitchen appliances across 9 kitchens, and captures 69 recipes, 59K fine-grained actions, 51K audio events, 20K object movements, and 37K object masks, with all relevant annotations upgraded to 3D.

提供机构：

布里斯托尔大学，莱顿大学，新加坡管理大学，巴斯大学

创建时间：

2025-02-06

搜集汇总

数据集介绍

构建方式

HD-EPIC数据集的构建方式采用了在自然家庭环境中进行非脚本化的厨房视频录制，参与者使用Project Aria眼镜进行数据收集，该眼镜配备了多个传感器，包括3个前置摄像头（1个RGB和2个SLAM）、7个麦克风和用于视线估计的内向摄像头。参与者被要求在连续3天内记录所有日常厨房活动，并提供详细的叙述、食谱和营养信息。数据收集后，参与者提供的食谱、叙述和营养信息被用于构建数据集的详细注释。

特点

HD-EPIC数据集的特点包括高度详细的注释，涵盖了食谱步骤、细粒度动作、带有营养价值的成分、移动对象和音频注释。所有注释都与场景、固定装置、对象位置和视线数字孪生相关联。该数据集还包括一个数字孪生环境，其中包含了厨房场景和对象的3D重建。此外，该数据集还包含了大量的音频事件和对象运动注释。

使用方法

使用HD-EPIC数据集的方法包括进行视频理解、动作识别、声音识别和长期视频对象分割等任务。该数据集提供了一个具有挑战性的VQA基准，包含26K个问题，用于评估模型在识别食谱、成分、营养、细粒度动作、3D感知、对象运动和视线方向方面的能力。此外，该数据集还提供了详细的叙述、对象运动、对象掩码和3D位置、长期对象轨迹、对象-动作-固定装置标签等注释，可用于训练和评估视频理解和视频语言模型。

背景与挑战

背景概述

在视频理解领域，尤其是第一人称视角视频的理解，人类能够轻松理解视频内容，从细微的动作到整个活动，而现有的模型却难以实现。第一人称视频理解引入了额外的挑战，包括显著的相机运动、细微的动作运动、在操作过程中被遮挡的对象以及频繁地离开视野。理解这些视频需要解耦头部运动、手部交互和对动态场景的全局理解。为了解决这些挑战，HD-EPIC数据集被创建，这是一个高详细度的第一人称视频数据集，包含详细的标签，涵盖了食谱步骤、细粒度动作、带有营养价值的成分、移动对象和音频注释。所有注释都通过场景、固定装置、对象位置和凝视的数字孪生与3D场景相关联。该数据集是在自然环境中收集的，使其成为第一个在野外收集但具有与受控实验室环境相匹配的详细注释的数据集。

当前挑战

HD-EPIC数据集面临的挑战包括：1)解决领域问题的挑战：数据集的详细注释和3D数字孪生为视频理解模型提供了新的基准，但目前的模型在识别食谱、成分、营养、细粒度动作、3D感知、对象运动和凝视方向方面仍然存在困难。2)构建过程中的挑战：数据集的构建涉及到大量的数据收集、注释和后处理工作，需要解决数据隐私、标注一致性、3D重建精度等问题。

常用场景

经典使用场景

HD-EPIC数据集主要被用于训练和评估视频理解模型，尤其是针对第一人称视角的视频。它提供了丰富的标注，包括食谱步骤、细粒度动作、食材及其营养价值、移动物体、音频标注等，并且所有标注都与3D场景相关联。这使得HD-EPIC成为一个理想的测试平台，用于评估视频感知模型的综合性能。

实际应用

HD-EPIC数据集在实际应用中具有广泛的前景。它可以被用于开发智能家居系统、人机交互界面、视频内容分析等。例如，通过分析HD-EPIC数据集中的动作和食材信息，可以开发出能够指导用户烹饪的智能厨房系统；通过分析视频中的物体运动和注视方向，可以开发出更加智能的人机交互界面。

衍生相关工作

HD-EPIC数据集的发布推动了相关领域的研究进展。例如，基于HD-EPIC数据集，研究人员开发了新的视频理解模型，如Gemini Pro，它在HD-EPIC VQA基准测试中取得了最佳性能。此外，HD-EPIC数据集也为其他相关领域的研究提供了新的思路和方法，如动作识别、声音识别、长期视频物体分割等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集