EgoExoLearn

github2024-03-26 更新2024-05-31 收录

下载链接：

https://github.com/OpenGVLab/EgoExoLearn

下载链接

链接失效反馈

官方服务：

资源简介：

We propose EgoExoLearn, a dataset that emulates the human demonstration following process, in which individuals record egocentric videos as they execute tasks guided by exocentric-view demonstration videos. Focusing on the potential applications in daily assistance and professional support, EgoExoLearn contains egocentric and demonstration video data spanning 120 hours captured in daily life scenarios and specialized laboratories. Along with the videos we record high-quality gaze data and provide detailed multimodal annotations, formulating a playground for modeling the human ability to bridge asynchronous procedural actions from different viewpoints.

本研究提出EgoExoLearn数据集，该数据集模拟人类跟随示范动作的学习过程：受试者在由外视视角（exocentric-view）示范视频引导下执行任务时，将录制自身第一视角（egocentric）视频。针对日常辅助与专业支持的潜在应用场景，EgoExoLearn包含总时长达120小时的第一视角视频与示范视频数据，采集场景涵盖日常生活场景与专业实验室。除上述视频数据外，本研究还录制了高质量的视线（gaze）数据，并提供详尽的多模态标注，为构建人类跨视角异步程序性动作衔接能力的模型提供了研究平台。

创建时间：

2024-03-20

原始信息汇总

数据集概述

EgoExoLearn 是一个专注于模拟人类演示跟随过程的数据集，其中个体在执行任务时记录了自我中心的视频，并参考了外部视角的演示视频。该数据集包含了120小时的日常场景和专业实验室中的自我中心和演示视频数据，并记录了高质量的注视数据和详细的多种模态注释，为建模人类从不同视角桥接异步程序性动作的能力提供了一个实验平台。

数据集内容

视频数据：包含120小时的自我中心和演示视频，覆盖日常场景和专业实验室。
注视数据：高质量的注视数据记录。
多模态注释：详细的注释，用于支持多种分析和研究。

数据集特色

跨视角关联：设计了跨视角关联的基准，包括动作分割、动作预期和动作规划等。
技能评估：提供基于跨视角参考的技能评估基准。
视频字幕：探索基于跨视角参考的视频字幕。

数据访问

Google Drive链接：提供视频、注视数据、CLIP特征和I3D RGB特征等多种数据的下载链接。
BaiduYun链接：提供数据集的整体下载链接。

引用信息

若使用此数据集，请引用以下文献： bibtex @InProceedings{huang2024egoexolearn, title={EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World}, author={Huang, Yifei and Chen, Guo and Xu, Jilan and Zhang, Mingfang and Yang, Lijin and Pei, Baoqi and Zhang, Hongjie and Lu, Dong and Wang, Yali and Wang, Limin and Qiao, Yu}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2024} }

搜集汇总

数据集介绍

构建方式

EgoExoLearn数据集的构建旨在模拟人类演示跟随过程，通过记录个体在执行任务时的自我中心视角视频，并结合外部视角的演示视频。数据集涵盖了120小时的视频数据，这些数据采集自日常生活场景和专业实验室。视频录制过程中，研究人员还捕捉了高质量的注视数据，并提供了详细的多模态注释，为建模人类在不同视角下异步程序动作的桥梁能力提供了丰富资源。

特点

EgoExoLearn数据集的特点在于其多视角的丰富性，不仅包含自我中心视角和外部视角的视频数据，还提供了高质量的注视数据和多模态注释。数据集涵盖了广泛的日常生活和专业场景，为研究跨视角关联、动作理解、技能评估和视频字幕生成等任务提供了坚实的基础。此外，数据集还首次探索了注视数据在这些任务中的作用，为未来的研究提供了新的方向。

使用方法

EgoExoLearn数据集的使用方法包括通过Google Drive、BaiduYun或Huggingface平台获取视频、注视数据和特征文件。研究人员可以利用这些数据进行跨视角关联、动作分割、动作预测、技能评估和视频字幕生成等任务。每个任务都配备了详细的注释和基线实现，帮助用户快速上手。此外，数据集还提供了CLIP和I3D RGB特征，方便用户进行深度学习和特征提取。

背景与挑战

背景概述

EgoExoLearn数据集由上海人工智能实验室、南京大学和深圳先进技术研究院等机构的研究团队于2024年提出，旨在解决异步自我中心（ego-centric）和外部中心（exo-centric）视角下的程序性活动理解问题。该数据集通过模拟人类在任务执行过程中记录自我中心视频并参考外部中心演示视频的场景，涵盖了120小时的日常生活和专业实验室场景的视频数据，并提供了高质量的注视数据和多模态标注。EgoExoLearn的提出为跨视角动作关联、动作理解、技能评估等任务提供了丰富的研究资源，推动了人工智能在学习和映射人类演示行为方面的进展。

当前挑战

EgoExoLearn数据集在解决跨视角程序性活动理解问题时面临多重挑战。首先，如何有效关联异步的自我中心和外部中心视角数据，以捕捉任务执行中的关键动作和意图，是一个复杂的问题。其次，数据集构建过程中需要处理大规模视频数据的采集、标注和存储，尤其是高质量注视数据的获取与同步，增加了技术难度。此外，跨视角动作分割、动作预测和技能评估等任务的基准设计需要兼顾多样性和复杂性，以确保数据集的实用性和泛化能力。这些挑战不仅考验了数据集的构建技术，也为未来研究提供了重要的探索方向。

常用场景

经典使用场景

EgoExoLearn数据集在计算机视觉领域中被广泛应用于跨视角动作理解的研究。通过结合自我中心（egocentric）和外部中心（exocentric）视角的视频数据，该数据集为研究者提供了一个独特的平台，用于探索人类在异步视角下执行任务的能力。特别是在动作分割、动作预测和动作规划等任务中，EgoExoLearn数据集通过其丰富的多模态注释和高精度的时间标注，为模型训练和评估提供了坚实的基础。

解决学术问题

EgoExoLearn数据集解决了跨视角动作理解的多个关键学术问题。首先，它通过提供异步视角下的视频数据，帮助研究者理解人类在不同视角下执行任务的差异与共性。其次，数据集中的高质量注视数据和详细的多模态注释，为研究注视在动作理解中的作用提供了宝贵资源。此外，该数据集还推动了跨视角动作关联、动作分割和技能评估等任务的研究进展，为设计能够从人类演示中学习的智能代理提供了重要支持。

衍生相关工作

EgoExoLearn数据集衍生了一系列经典的研究工作，特别是在跨视角动作理解和智能代理设计领域。基于该数据集，研究者们提出了多种创新的模型和方法，用于解决跨视角动作关联、动作分割和技能评估等任务。例如，一些研究利用EgoExoLearn中的注视数据，开发了能够模拟人类视觉注意力的模型，从而提高了动作理解的准确性。此外，该数据集还激发了关于如何将人类演示映射到机器人视角的研究，推动了智能代理在实际应用中的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集