Aria Digital Twin (ADT)

Name: Aria Digital Twin (ADT)
Creator: Meta Reality Labs
Published: 2023-06-13 14:38:47
License: 暂无描述

arXiv2023-06-13 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2306.06362v2

下载链接

链接失效反馈

官方服务：

资源简介：

Aria Digital Twin (ADT) 数据集由Meta Reality Labs创建，包含200个序列，记录了佩戴Aria眼镜的人在两个真实室内场景中的活动。数据集涵盖了398个物体实例，包括324个静态和74个动态物体。每个序列包含原始数据、传感器校准、地面实况数据以及逼真的合成渲染。ADT数据集的目标是设定一个新标准，用于评估以自我为中心的机器感知领域，如3D物体检测和跟踪、场景重建和理解、模拟到真实学习以及增强现实应用中的人体姿态预测。

The Aria Digital Twin (ADT) dataset was created by Meta Reality Labs. It comprises 200 sequences that record the activities of individuals wearing Aria glasses across two real indoor scenes. The dataset covers 398 object instances, including 324 static objects and 74 dynamic objects. Each sequence contains raw data, sensor calibration data, ground-truth data, and photorealistic synthetic renderings. The goal of the ADT dataset is to establish a new benchmark for evaluating egocentric machine perception tasks such as 3D object detection and tracking, scene reconstruction and understanding, sim-to-real learning, and human pose prediction in augmented reality applications.

提供机构：

Meta Reality Labs

创建时间：

2023-06-10

搜集汇总

数据集介绍

构建方式

在增强现实与机器感知领域，构建高质量的以自我为中心数据集面临诸多挑战。Aria Digital Twin (ADT) 数据集通过一套精密的多模态采集与数字化流程构建而成。研究团队首先使用高精度扫描仪（如FARO Focus S-150）对两个真实室内场景（公寓与办公室）进行三维扫描，并通过平面拟合生成三角网格，几何误差控制在毫米级。所有静态与动态物体均通过工业级蓝光三维扫描仪（ATOS 5）获取几何模型，并结合交叉偏振摄影测量技术重建其物理渲染材质。为实现动态要素的精确追踪，系统集成了Optitrack运动捕捉系统，通过亚毫米级精度的标记点实时获取Aria设备、物体及佩戴者的六自由度位姿。所有传感器数据通过SMPTE时间码实现微秒级同步，确保时空对齐。最终，通过将数字化场景模型、校准参数与动态位姿相结合，生成了每帧图像的像素级实例分割、深度图、二维边界框以及逼真的合成渲染图像。

特点

ADT数据集的核心特征在于其前所未有的完整性、精确度与真实感。该数据集包含200个由Aria眼镜佩戴者在真实室内场景中执行日常活动的序列，涵盖398个物体实例（324个静态与74个动态）。每个序列不仅提供两个单目相机、一个RGB相机和两个IMU的原始数据流，更包含了完整的传感器校准参数以及多层次的精确真值：包括Aria设备、物体的连续六自由度位姿、三维人体姿态、三维视线向量、二维图像分割与深度图。尤为突出的是，数据集通过高保真数字化流程生成了与真实帧对应的照片级合成渲染图像，实现了真实的“数字孪生”。这种将动态物体交互、复杂环境建模与以自我中心感知挑战（如快速自我运动、非理想视角）相结合的综合设计，使其在几何精度、视觉真实性与标注全面性上设立了新的基准。

使用方法

ADT数据集为以自我为中心的机器感知研究提供了多任务评估平台。研究者可利用其丰富的多模态真值，系统性地评测与发展三维物体检测与跟踪、场景重建与理解、仿真到真实迁移学习以及人体姿态预测等核心算法。具体而言，数据集提供的精确六自由度物体位姿与相机位姿，可用于训练和评估单目或多视图三维物体检测模型的性能。其像素级实例分割与深度图，能够支撑语义分割与深度估计任务的研究。同时，成对的真实图像与照片级合成渲染图像，为域适应与图像到图像翻译算法提供了理想的训练与测试数据。此外，包含人体姿态与视线向量的标注，为第一人称视角下的人机交互与行为理解研究开辟了新途径。通过提供统一的场景坐标系与时间同步的多传感器数据，ADT支持对复杂感知任务进行端到端的综合评估。

背景与挑战

背景概述

随着增强现实技术的迅猛发展，以自我为中心的数据在机器感知领域的重要性日益凸显。Aria Digital Twin（ADT）数据集由Meta Reality Labs的研究团队于2023年推出，旨在填补现有数据在三维感知任务中的空白。该数据集通过Aria眼镜采集，包含200个真实室内场景中的活动序列，涵盖了静态与动态物体的六自由度姿态、人体姿态、眼动向量及深度图等多维度真值标注。其核心研究问题聚焦于如何实现真实世界中人、物体与环境的全面数字化，以推动三维物体检测、场景重建及人机交互等关键领域的发展。ADT以其高精度、高真实感与全面性，为增强现实应用中的机器感知研究设立了新的评估标准。

当前挑战

ADT数据集所针对的领域问题在于解决增强现实中自我中心三维机器感知的复杂性，包括三维物体检测与跟踪、场景理解及虚实融合学习等。这些任务面临快速自我运动、非理想视角及低功耗硬件等独特挑战。在构建过程中，研究团队需克服高精度真值生成的难题，如通过运动捕捉系统实现亚毫米级物体姿态跟踪，并确保多传感器数据的时间同步与空间对齐。此外，创建照片级真实的数字化场景涉及复杂的三维重建与材质优化流程，需在几何精度与视觉逼真度之间取得平衡，以支撑后续算法的可靠训练与评估。

常用场景

经典使用场景

在增强现实与机器感知领域，Aria Digital Twin（ADT）数据集以其第一人称视角的丰富标注，为三维物体检测与跟踪提供了经典应用场景。该数据集通过Aria眼镜采集真实室内环境中的动态活动序列，涵盖静态与动态物体的六自由度姿态、人体骨骼、眼动向量及深度图等多模态真值，使得研究者能够在高度逼真的虚拟孪生环境中，系统评估算法在快速自我运动、遮挡与视角变化等挑战下的鲁棒性。

衍生相关工作

基于ADT数据集，多项经典研究工作得以深入开展，尤其在三维视觉与增强现实交叉领域。例如，研究者利用其精确的真值标注，对FPN、VIT-Det等二维检测与分割模型进行了跨域性能评估，揭示了自我中心数据带来的独特挑战。同时，该数据集推动了如Total3D、Cube R-CNN等三维物体检测方法的改进，并促进了图像翻译技术如Pix2Pix、LDM在合成到真实域适应中的应用，为后续大规模自我中心数据标注流程的标准化提供了重要参考。

数据集最近研究