five

Aria Everyday Activities (AEA) Dataset

收藏
arXiv2024-02-22 更新2024-07-23 收录
下载链接:
https://www.projectaria.com/datasets/aea/
下载链接
链接失效反馈
官方服务:
资源简介:
AEA数据集是由Meta Reality Labs Research创建的一个多模态开放数据集,使用Project Aria眼镜记录。该数据集包含143个日常活动序列,由多个佩戴者在五个地理位置多样的室内地点记录。每个记录包含通过Project Aria眼镜记录的多模态传感器数据。此外,AEA还提供包括高频全局对齐的3D轨迹、场景点云、每帧3D眼动向量和时间对齐的语音转录在内的机器感知数据。数据集旨在支持神经场景重建和提示分割等研究应用,解决在增强现实和人工智能领域中对个性化和情境化AI助手的研究需求。

The AEA Dataset is a multimodal open dataset created by Meta Reality Labs Research, recorded using Project Aria glasses. It contains 143 daily activity sequences collected by multiple wearers at five geographically diverse indoor locations. Each recording includes multimodal sensor data captured via Project Aria glasses. Additionally, the AEA Dataset provides machine perception data including high-frequency globally aligned 3D trajectories, scene point clouds, per-frame 3D eye-gaze vectors, and time-aligned speech transcripts. This dataset is designed to support research applications such as neural scene reconstruction and prompt segmentation, addressing the research demands for personalized and contextual AI assistants in the fields of augmented reality and artificial intelligence.
提供机构:
Meta Reality Labs Research
创建时间:
2024-02-21
搜集汇总
数据集介绍
main_image_url
构建方式
在增强现实与个人可穿戴人工智能设备日益普及的背景下,Aria Everyday Activities (AEA) 数据集应运而生,旨在为多模态人工智能研究提供真实世界的日常活动记录。该数据集通过Project Aria眼镜设备采集,涵盖了143个日常活动序列,由多位佩戴者在五个地理多样化的室内环境中完成。数据采集过程遵循精心设计的脚本指导,佩戴者依据开放式场景提示进行自然活动,如烹饪、清洁、用餐等,确保了数据的真实性与代表性。所有序列均包含多模态传感器原始数据,并利用Project Aria的机器感知服务进行后处理,生成高频率的全局对齐6自由度轨迹、场景点云、每帧3D眼动向量及时间同步的语音转录,实现了时空对齐的4D数据构建。
特点
AEA数据集的核心特点在于其丰富的多模态信息与精确的时空对齐能力。数据集不仅提供高分辨率RGB视频、单目场景相机、眼动追踪视频、惯性测量单元及空间音频等原始传感器数据,还集成了先进的机器感知输出,如闭合环路的6自由度轨迹和全局半稠密点云,这些数据均在统一坐标系下对齐,支持多设备、多活动的联合分析。此外,数据集包含3D眼动方向向量与时间同步的语音转录,为理解佩戴者意图与上下文交互提供了关键线索。其非侵入式设备形态与日常活动场景的结合,使得AEA在模拟真实世界增强现实应用方面具有独特优势。
使用方法
为促进多模态人工智能研究,AEA数据集配备了开源工具链Project Aria Tools,支持C++与Python环境下的数据加载与查询。研究人员可利用该工具轻松访问多设备同步记录,提取时间戳对齐的传感器数据与机器感知输出。数据集适用于多种研究应用,例如基于高斯溅射的神经场景重建,可利用闭合环路轨迹与全局点云实现单序列或多序列的联合三维重建;在提示式分割任务中,可通过眼动向量或语音转录驱动基础模型(如Efficient-SAM与Grounding DINO)进行对象检测与分割。这些工具与示例为探索上下文感知AI提供了实践基础,助力于日常活动理解与沉浸式交互系统的开发。
背景与挑战
背景概述
Aria Everyday Activities (AEA) 数据集由 Meta Reality Labs Research 团队于 2024 年发布,作为 Project Aria 眼镜采集的自我中心多模态开放数据集。该数据集聚焦于增强现实与个人可穿戴人工智能领域,旨在通过连续、情境化的自我中心数据,推动个性化上下文感知 AI 助手的发展。AEA 包含 143 个日常活动序列,由多位佩戴者在五个不同室内场景中录制,涵盖了烹饪、清洁、阅读等多种活动,并提供了高频率的全局对齐 6DoF 轨迹、场景点云、3D 眼动向量及时间同步语音转录等多模态感知数据。其核心研究问题在于如何利用丰富的自我中心传感器信息,实现对佩戴者意图与三维环境的精准理解,为 AR/AI 研究提供了重要的基准资源。
当前挑战
AEA 数据集面临的挑战主要体现在两个方面:在领域问题层面,自我中心视觉理解需克服快速头部运动、动态环境干扰以及多模态数据融合的复杂性,以实现对日常活动中佩戴者意图与三维上下文的可靠推断;在构建过程中,数据采集需确保多设备间的时间同步精度、多模态传感器的校准一致性,以及隐私保护要求下的人脸与敏感信息匿名化处理,同时还需维持数据的高质量与可扩展性,以支持大规模自我中心 AI 模型的训练与评估。
常用场景
经典使用场景
在增强现实与个人化人工智能助理的研究领域,Aria Everyday Activities (AEA) 数据集为多模态感知与上下文理解提供了经典范例。该数据集通过Project Aria眼镜采集,包含143个日常活动序列,覆盖烹饪、清洁、用餐、阅读等多种室内场景,其核心价值在于提供了时空对齐的多模态传感器数据与机器感知输出。研究者可基于此开展以自我为中心的视频理解、三维场景重建以及人机交互意图推断等工作,尤其适用于探索长时程、多人物协同的日常活动分析。
实际应用
在实际应用层面,AEA数据集为开发下一代增强现实眼镜与个人化AI助理提供了关键训练与评估资源。其多模态对齐特性支持构建能够理解穿戴者日常活动、识别交互对象、并推断行为意图的智能系统。例如,结合眼动与语音提示的实例分割技术,可应用于辅助视觉、智能家居控制或沉浸式虚拟记忆重建。此外,数据集中多人同步录制与隐私保护处理,也为协作场景下的多智能体感知与安全合规的数据应用提供了可行范本。
衍生相关工作
自Aria Pilot Dataset发布以来,AEA数据集已催生并衔接了多个重要研究项目与姊妹数据集。例如,Aria Digital Twin Dataset通过运动捕捉系统提供了完全数字化的场景与对象姿态真值;Ego-Exo4D则扩展了自我中心与外部视角的多模态对比学习。在方法层面,基于AEA的闭环轨迹与点云,研究者实现了高斯溅射等神经重建技术的优化,并探索了以眼动或语音为提示的零样本分割模型。这些工作共同推动了穿戴式感知、三维视觉与多模态理解等领域的算法进步与基准建立。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作