Charades-Ego

Name: Charades-Ego
Creator: 卡内基梅隆大学
Published: 2018-05-01 00:57:00
License: 暂无描述

arXiv2018-05-01 更新2024-07-25 收录

下载链接：

https://allenai.org/plato/

下载链接

链接失效反馈

官方服务：

资源简介：

Charades-Ego数据集由卡内基梅隆大学创建，是一个包含68,536个活动实例的大型数据集，涵盖68.8小时的第三和第一人称视频。数据集通过网络招募的众包工作者录制，采用‘好莱坞在家’方法，确保了数据的多模态和多样性。数据集内容包括从第三视角到第一视角的活动同步记录，以及文本描述和时间标注，适用于视频分类、定位和字幕生成等任务。Charades-Ego旨在通过结合第三和第一人称视频理解，提升增强现实和虚拟现实等应用中的活动识别能力。

Created by Carnegie Mellon University, the Charades-Ego dataset is a large-scale dataset containing 68,536 activity instances and spanning 68.8 hours of third-person and first-person video footage. Recorded by online-recruited crowdworkers using the "Hollywood in Homes" methodology, this dataset ensures the multimodality and diversity of its contents. It includes synchronized activity recordings from third-person to first-person perspectives, alongside textual descriptions and temporal annotations, making it suitable for tasks such as video classification, localization, and video caption generation. The Charades-Ego dataset aims to improve activity recognition capabilities in applications like augmented reality (AR) and virtual reality (VR) by combining third-person and first-person video understanding.

提供机构：

卡内基梅隆大学

创建时间：

2018-04-25

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，特别是第一人称与第三人称视频理解的研究中，数据集的构建方式对模型的泛化能力至关重要。Charades-Ego数据集采用了“好莱坞在家”的众包策略，通过亚马逊土耳其机器人平台招募参与者，要求他们根据给定的活动脚本分别录制第三人称和第一人称视角的视频。为确保视角的对应性，参与者需使用固定在前额的摄像头拍摄第一人称视频，同时以传统方式录制同一脚本的第三人称视频。数据集最终包含68.8小时的双视角视频，涵盖68,536个活动实例，并通过与原始Charades数据集共享脚本和活动类别，保证了内容的多样性和规模。

特点

该数据集的核心特点在于其成对的第一人称与第三人称视频结构，为跨视角学习提供了独特资源。它包含34.4小时的第一人称视频和等量的对应第三人称视频，涉及157种日常活动类别，覆盖全球112个家庭的不同场景，体现了高度的多样性和现实性。此外，数据集提供了时间标注和文本描述，支持视频分类、定位、描述等任务，其规模远超同期其他以自我为中心的数据集，如EGTEA Gaze+，并首次以大规模成对视角的形式出现，为探索视角间的语义关联奠定了坚实基础。

使用方法

在应用层面，Charades-Ego数据集主要用于推动以自我为中心的视频理解研究。研究者可利用其成对的视角数据，训练模型进行跨视角的动作识别、视频定位或描述生成。数据集已划分为训练集和测试集，确保了主体不重叠，适用于监督学习或零样本学习场景。例如，通过微调在原始Charades数据集上预训练的模型，可以显著提升第一人称视频的分类性能；同时，其标注结构也支持开发联合建模第一人称与第三人称视角的新型算法，以探索视角间的知识迁移与互补。

背景与挑战

背景概述

随着增强现实与虚拟现实等应用的兴起，第一人称视角视频理解领域在近年来迅速发展。为建立第三人称与第一人称视频理解之间的桥梁，卡内基梅隆大学、Inria及艾伦人工智能研究所的研究团队于2018年推出了Charades-Ego数据集。该数据集采用“家庭好莱坞”的众包采集方法，通过亚马逊土耳其机器人平台招募参与者，同步录制包含相同活动脚本的第一人称与第三人称配对视频。其核心研究问题在于利用海量易得的第三人称视频资源来提升第一人称视频的活动理解能力，涵盖活动分类、定位与描述等任务。作为当时规模最大、多样性最丰富的第一人称数据集之一，Charades-Ego包含来自全球112个家庭的68.8小时配对视频，共计68,536个活动实例，显著推动了跨视角视频理解研究的发展。

当前挑战

Charades-Ego数据集致力于解决第一人称视频活动理解的复杂挑战，其核心问题在于如何克服第一人称视角固有的视觉局限，如剧烈运动模糊、频繁视角变化及局部遮挡，这些因素使得活动识别与定位的难度显著高于第三人称视频。在数据集构建过程中，研究团队面临多重挑战：为确保配对视频的同步性与一致性，需设计兼顾实验室精度与大规模可扩展性的采集方案；同时，为提升标注质量，团队开发了联合标注界面，利用第三人称视频的全局视野辅助第一人称视频的时序标注，以缓解第一人称视角标注中因视野受限导致的共识率下降问题。此外，维持数据多样性并平衡不同活动类别的样本分布，亦是构建大规模高质量配对数据集的关键挑战。

常用场景

经典使用场景

在计算机视觉领域，Charades-Ego数据集因其独特的成对第一人称与第三人称视频结构，成为研究视角转换与跨模态学习的经典资源。该数据集广泛应用于第一人称视频行为识别任务，通过提供同步的自我中心视角与外部视角视频，使模型能够学习从不同视角理解日常活动。其丰富的时序标注与文本描述进一步支持视频分类、定位与描述等任务，为探索视角间的语义对齐提供了理想实验平台。

衍生相关工作

基于Charades-Ego数据集，研究者提出了多项经典工作，如ActorObserverNet等联合建模框架，探索第一人称与第三人称视频的协同表示学习。这些工作深入挖掘了视角间的互补信息，推动了跨视角行为识别、时序动作定位等方向的发展。数据集还催生了针对成对视频的预训练方法、零样本迁移算法等创新研究，持续丰富着自我中心视觉的理论体系与技术前沿。

数据集最近研究