Digital Twin Tracking Dataset v2 (DTTD2)

Name: Digital Twin Tracking Dataset v2 (DTTD2)
Creator: 加州大学伯克利分校
Published: 2023-10-10 11:01:10
License: 暂无描述

arXiv2023-10-10 更新2024-06-21 收录

下载链接：

https://github.com/augcog/DTTD2

下载链接

链接失效反馈

官方服务：

资源简介：

Digital Twin Tracking Dataset v2 (DTTD2)是由加州大学伯克利分校的研究团队开发的一个专注于数字双胞胎对象跟踪场景的RGBD数据集。该数据集扩展自DTTD v1，通过使用先进的移动RGBD传感器套件在Apple iPhone 14 Pro上捕获数据，增加了对iPhone传感器数据的适用性。DTTD2包含18个刚性对象及其纹理3D模型，数据来自100个场景，每个场景中包含一个或多个对象在各种方向和遮挡下的情况。数据集提供了3D对象姿态和每像素语义分割的地面实况标签，以及详细的相机规格、针孔相机投影矩阵和畸变系数。DTTD2旨在解决移动AR应用中动态环境下的3D对象定位问题，通过提供高质量的标注和多样化的场景，增强了数据驱动对象姿态估计算法的鲁棒性和实用性。

Developed by the research team from the University of California, Berkeley, Digital Twin Tracking Dataset v2 (DTTD2) is an RGBD dataset focused on digital twin object tracking scenarios. Derived from DTTD v1, this dataset expands its applicability to iPhone sensor data by capturing data using a state-of-the-art mobile RGBD sensor suite on an Apple iPhone 14 Pro. DTTD2 includes 18 rigid objects paired with their textured 3D models, collected across 100 scenes, each of which contains one or more objects under diverse orientations and occlusion conditions. The dataset provides ground-truth labels for 3D object poses and per-pixel semantic segmentation, alongside detailed camera specifications, pinhole camera projection matrices, and distortion coefficients. DTTD2 aims to address the problem of 3D object localization in dynamic environments for mobile AR applications, and enhances the robustness and practicality of data-driven object pose estimation algorithms by providing high-quality annotations and diverse scene configurations.

提供机构：

加州大学伯克利分校

创建时间：

2023-09-24

搜集汇总

数据集介绍

构建方式

在移动增强现实领域，数字孪生技术的精准定位面临传感器噪声的严峻挑战。DTTD2数据集的构建采用了苹果iPhone 14 Pro的先进移动RGBD传感器套件进行采集，其核心在于利用设备内置的LiDAR深度传感器与RGB相机同步捕获数据。采集过程中，通过ARKit框架获取1920×1440分辨率的RGB图像与256×192的深度图，并辅以专业OptiTrack运动捕捉系统高精度追踪相机位姿，确保了空间数据的准确性。数据标注环节借助开源流程生成物体6DoF姿态真值及逐像素语义分割标签，同时结合Blender修复三维模型纹理，最终构建了涵盖18个物体、100个场景的多样化数据集，有效模拟了遮挡与光照变化等真实环境复杂性。

特点

DTTD2数据集显著区别于传统机器人抓取数据集，其特色体现在专为移动AR场景设计的深度数据特性。数据集深度信息源自iPhone LiDAR传感器，呈现出典型的低分辨率与非高斯噪声分布，平均深度误差约0.25米，这为研究噪声环境下的姿态估计提供了独特挑战。此外，数据集包含几何形状相似但纹理各异的物体组合，增强了模型对视觉特征的判别需求。每个数据帧均提供相机内参、畸变系数及深度置信度图，并附有合成数据用于训练增强，全面支持了移动端数字孪生定位算法的鲁棒性验证与性能评估。

使用方法

为促进6DoF姿态估计算法在移动AR中的发展，DTTD2数据集提供了明确的使用框架。研究者可依据官方划分，利用8622个关键帧训练集与1239个测试集进行模型训练与评估，同时可使用附带的20000张合成图像扩展训练样本。评估时推荐采用ADD与ADD-S指标，通过计算模型预测姿态与真实姿态间采样点的平均距离来衡量精度，并支持AUC及1cm阈值成功率等量化分析。数据集配套公开了相机参数与三维模型，便于进行深度噪声分析与跨模态融合算法验证，为探索iPhone传感器数据下的数字孪生定位问题奠定了坚实基础。

背景与挑战

背景概述

数字孪生追踪数据集第二版（DTTD2）由加州大学伯克利分校的研究团队于2023年提出，旨在解决移动增强现实环境中三维物体六自由度姿态估计的核心难题。该数据集扩展了早期版本DTTD1，首次采用苹果iPhone 14 Pro的激光雷达传感器采集RGB-D数据，以更贴近实际移动设备的感知特性。其核心研究聚焦于在动态、遮挡及多变光照条件下，实现数字孪生物体的精准定位与追踪，弥补了现有数据集多面向机器人抓取而缺乏移动AR场景适配性的空白。DTTD2通过引入专业运动捕捉系统提供高精度真值标注，显著推动了移动端三维视觉算法在噪声深度数据下的鲁棒性研究，为数字孪生与增强现实技术的实用化奠定了关键数据基础。

当前挑战

DTTD2所应对的领域挑战在于移动增强现实中的鲁棒六自由度姿态估计，其需在传感器噪声显著、物体部分遮挡及光照剧烈变化的复杂场景中保持高精度。具体而言，iPhone激光雷达提供的深度图分辨率较低且包含非高斯分布的长尾噪声，导致传统依赖深度数据的算法性能急剧下降。在数据集构建过程中，研究团队面临多重挑战：需设计新的数据采集流程以同步高分辨率RGB图像与低质量深度信息，并确保像素级对齐；同时，为应对深度传感器的固有误差，必须开发创新的标注与校验方法，例如利用OptiTrack系统提供相机位姿真值，并通过三维模型渲染生成参考深度图以量化噪声水平，从而构建能够真实反映移动AR环境复杂性的评估基准。

常用场景

经典使用场景

在增强现实与机器人操作领域，精准的六自由度姿态估计是实现虚实交互的核心技术。DTTD2数据集专为移动AR环境中的数字孪生对象跟踪而设计，其经典应用场景聚焦于在动态、遮挡及多变光照条件下，利用iPhone 14 Pro的LiDAR传感器采集的RGB-D数据，评估和提升6DoF姿态估计算法的鲁棒性。该数据集通过模拟真实世界中的复杂情况，如物体部分遮挡、传感器噪声干扰以及光照变化，为研究者提供了一个接近实际移动AR应用的基准测试平台，推动了在噪声深度数据下进行高精度物体定位的研究。

实际应用

在实际应用层面，DTTD2数据集直接服务于移动增强现实应用的开发与优化。例如，在室内导航、家具预览、工业维护指导等AR场景中，需要准确跟踪并叠加数字模型到物理对象上。利用该数据集训练的模型能够更好地处理iPhone LiDAR产生的噪声深度图，确保在复杂光照和部分遮挡环境下仍能保持稳定的跟踪精度。这提升了移动AR应用的用户体验和可靠性，为消费电子、教育培训、远程协作等领域的AR解决方案提供了坚实的技术支撑。

衍生相关工作

围绕DTTD2数据集，已衍生出一系列专注于噪声鲁棒性提升的6DoF姿态估计研究工作。其核心贡献DTTDNet提出了基于Transformer的架构，并引入了Chamfer距离损失和几何特征过滤等深度鲁棒化模块，为处理非高斯噪声的移动LiDAR数据设立了新范式。相关工作进一步探索了多模态融合策略、对称物体处理以及少样本姿态估计等方向，推动了ES6D、MegaPose等基线方法的改进与比较研究。这些工作共同深化了对移动传感器噪声下物体定位问题的理解，促进了鲁棒姿态估计技术在更广泛移动平台上的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集