ARKitTrack

Name: ARKitTrack
Creator: 大连理工大学
Published: 2023-03-24 17:51:13
License: 暂无描述

arXiv2023-03-24 更新2024-06-21 收录

下载链接：

https://arkittrack.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

ARKitTrack是一个新型的RGB-D跟踪数据集，由大连理工大学创建，包含300个RGB-D序列，总计229.7K视频帧和455个目标。数据集涵盖了多种室内外场景，如动物园、市场、办公室等，并包含了多种挑战性因素，如光照变化、背景杂乱等。创建过程中，使用iPhone内置的LiDAR扫描器和ARKit框架进行数据采集，确保了数据的高质量和多样性。该数据集主要用于RGB-D视觉跟踪研究，旨在解决复杂环境下的目标跟踪问题。

ARKitTrack is a novel RGB-D tracking dataset developed by Dalian University of Technology. It contains 300 RGB-D sequences, totaling 229.7K video frames and 455 target objects. The dataset covers a wide range of indoor and outdoor scenarios including zoos, markets, offices and more, and incorporates various challenging factors such as illumination variations and cluttered backgrounds. During data collection, iPhone's built-in LiDAR scanner and the ARKit framework were utilized to acquire the data, ensuring the high quality and diversity of the dataset. This dataset is primarily used for RGB-D visual tracking research, aiming to solve object tracking problems in complex environments.

提供机构：

大连理工大学

创建时间：

2023-03-24

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，RGB-D跟踪数据集的发展受限于传统深度传感器的便携性与场景多样性。ARKitTrack数据集通过集成苹果iPhone内置的LiDAR扫描仪与ARKit框架，实现了高便携性的RGB-D数据采集。数据收集过程涵盖了室内外多种场景，如动物园、市场、办公室等，并兼顾静态与动态视角，以模拟真实应用环境。每个序列包含同步对齐的RGB帧、深度图及置信度图，分辨率分别为1920×1440和256×192。此外，数据标注涵盖了边界框、像素级目标掩码及每帧属性，通过关键帧采样与插值技术确保标注的精确性与完整性。

特点

ARKitTrack数据集在RGB-D跟踪领域展现出显著的多样性与实用性。其核心特点在于利用移动设备采集数据，突破了传统深度传感器的场景限制，涵盖了287个动态场景与144个目标类别，增强了数据集的现实代表性。数据集提供229.7K视频帧、455个目标，并首次同时包含边界框与像素级掩码标注，支持视觉目标跟踪与视频对象分割任务。此外，每帧相机内参与6自由度位姿的提供，为动态场景下的三维几何分析奠定了坚实基础。

使用方法

ARKitTrack数据集适用于RGB-D视觉跟踪与分割任务的训练与评估。用户可基于提供的边界框与像素级掩码标注，开发或测试跨模态跟踪算法。数据集划分为VOT与VOS子集，分别包含50与55个测试序列，支持长期跟踪与复杂分割场景的评估。性能度量方面，VOT任务采用精确度、召回率与F分数，VOS任务则使用区域相似性、轮廓精度及其平均值。研究人员可利用相机位姿信息探索动态视角下的几何建模，推动移动RGB-D应用的算法创新。

背景与挑战

背景概述

ARKitTrack数据集由大连理工大学与鹏城实验室的研究团队于2022年推出，旨在应对RGB-D视觉跟踪领域的数据稀缺问题。该数据集利用苹果iPhone和iPad内置的LiDAR扫描仪，采集了包含室内外多种场景的300个RGB-D序列，涵盖229.7K视频帧与455个目标，并提供了边界框标注、像素级目标掩码及相机位姿信息。其核心研究问题聚焦于通过融合深度几何信息提升复杂环境下的目标跟踪鲁棒性，尤其在动态视角与多样化光照条件下展现出显著优势，为移动端增强现实与三维视觉研究提供了关键数据支撑。

当前挑战

ARKitTrack数据集致力于解决RGB-D视觉目标跟踪与分割任务中的多重挑战。在领域问题层面，深度信息虽能增强对遮挡、背景干扰及光照变化的应对能力，但如何有效融合RGB外观特征与三维几何线索仍存在理论瓶颈；同时，动态场景中相机运动导致的视角变化与目标形变进一步增加了跟踪难度。在构建过程中，研究团队面临移动设备采集的深度图分辨率与精度限制，需通过ARKit框架实现多模态数据同步对齐；此外，大规模像素级标注耗费高昂，需设计关键帧采样与插值策略以平衡标注质量与效率。

常用场景

经典使用场景

在计算机视觉领域，视觉目标跟踪作为一项基础且长期存在的挑战，其发展常受限于数据集的多样性与规模。ARKitTrack数据集通过移动设备内置的LiDAR传感器捕获RGB-D视频序列，涵盖了室内外多种复杂场景，如动物园、市场、办公室等，并提供了丰富的动态视角与光照变化。该数据集最经典的使用场景在于为RGB-D视觉目标跟踪（VOT）与视频对象分割（VOS）任务提供大规模、高质量的基准数据，支持研究者训练和评估跨模态跟踪算法，特别是在处理遮挡、背景杂乱、快速运动等挑战性因素时展现出独特价值。

衍生相关工作

ARKitTrack数据集的发布催生了一系列相关的经典研究工作，特别是在跨模态特征融合与3D几何建模方面。基于该数据集，研究者提出了统一的RGB-D跟踪基线方法，通过鸟瞰图表示整合RGB特征与深度几何信息，显著提升了跟踪性能。后续工作进一步探索了相机位姿信息的利用，以及动态模板更新策略在视频对象分割中的应用。这些衍生研究不仅验证了数据集的实用价值，还推动了RGB-D跟踪社区向更高效、鲁棒的方向发展，为多模态视觉理解提供了新的技术路径。

数据集最近研究