ARKitScenes

arXiv2025-09-30 收录

下载链接：

https://github.com/apple/arkitscenes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为ARKitScenes，它是首个使用广泛可用的深度传感器捕获的RGB-D数据集。该数据集包含了原始和经过处理的移动设备数据，来自固定激光扫描仪的高分辨率深度图，以及针对多种家具类型的手动标记三维定向边界框。此外，数据是在获得房主同意的情况下从真实世界的家庭环境中收集的，确保不包含任何个人可识别信息。它是迄今为止发布的最大的室内场景理解数据集，其任务包括3D物体检测以及基于颜色的深度上采样。

This dataset, named ARKitScenes, is the first RGB-D dataset captured using widely available depth sensors. It contains raw and processed mobile device data, high-resolution depth maps from stationary laser scanners, and manually annotated 3D oriented bounding boxes for multiple furniture categories. Furthermore, the data was collected from real-world residential environments with the consent of homeowners, ensuring that no personally identifiable information is included. It is the largest indoor scene understanding dataset released to date, with tasks including 3D object detection and color-based depth upsampling.

搜集汇总

数据集介绍

构建方式

ARKitScenes数据集的构建依托于Apple LiDAR扫描仪与专业级Faro Focus S70激光扫描仪的协同采集。首先，在真实住宅环境中，使用2020款iPad Pro录制多视角RGB-D视频序列，同步记录IMU数据与ARKit估计的相机位姿及场景重建结果。随后，利用Faro Focus S70在相同场景中采集高精度XYZRGB点云，并通过Faro Scene软件将多站点云配准至统一坐标系。为生成逐帧深度真值，研究团队提出一种基于Delaunay三角剖分与立体投影的渲染方法，将激光扫描点云转化为水密网格，并进一步区分前景与遮挡几何体，通过OpenGL多通道渲染合成与iPad相机视角对齐的高分辨率深度图。同时，借助局部图像特征匹配与RANSAC算法，将iPad相机位姿精配准至激光扫描坐标系，最终得到每帧的密集深度真值。

特点

ARKitScenes是目前规模最大的室内RGB-D数据集，涵盖5,048个视频序列与1,661个独特场景，是ScanNet的三倍以上。其核心特色在于提供了两种互补的高质量真值：一是由Faro激光扫描仪获取的高分辨率深度图，与消费级LiDAR低分辨率深度形成真实对应关系，避免了传统数据集仅靠人工下采样或加噪的模拟缺陷；二是为17类房间定义家具（如橱柜、床、沙发等）手工标注了3D有向边界框，填补了现有数据集在场景级方向性标注上的空白。此外，数据采集覆盖欧洲三大城市中不同社会经济水平与城乡位置的住宅，光照条件随自然光变化，极大增强了场景的多样性与现实代表性。

使用方法

ARKitScenes适用于两项核心下游任务：3D目标检测与颜色引导的深度上采样。对于3D目标检测，研究者提供了全场景与单帧两种评估设置。全场景检测直接利用场景重建上的3D边界框标注，通过PointNet++后端与Hough投票模块（如VoteNet、MLCVNet、H3DNet）进行训练与评估；单帧检测则需过滤相机视锥外的框，并采用轻量化骨干网络以加速收敛。对于深度上采样，数据集提供了天然的成对低分辨率LiDAR深度与高分辨率激光扫描深度，可直接用于训练基于滤波或深度神经网络的模型（如MSG、MSPF），需注意处理真值中因遮挡导致的缺失像素区域，并调整损失函数（如用鲁棒边缘损失替代SSIM）。官方已划分80%训练、10%验证、10%测试集，按场地而非帧级别划分，确保场景独立性。

背景与挑战

背景概述

室内三维场景理解是增强现实、机器人导航与智能摄影等领域的核心议题，近年来得益于深度传感器与机器学习技术的融合，取得了显著进展。然而，传统RGB-D数据集多依赖Kinect等专用设备采集，与大众日常使用的移动设备存在硬件鸿沟，限制了研究成果向实际应用的转化。在此背景下，Apple团队于2021年发布了ARKitScenes数据集，旨在弥合这一差距。该数据集由Gilad Baruch、Zhuoyuan Chen等研究者主导，依托Apple LiDAR扫描仪，在伦敦、纽卡斯尔和华沙三座城市的真实住宅中采集，涵盖1,661个独特场景、5,048条RGB-D序列，是当时规模最大的室内场景理解数据集。其核心研究问题聚焦于利用移动端深度数据推动三维物体检测与彩色引导深度上采样等任务的实用化，为领域提供了首个面向广泛可用传感器的基准资源，显著促进了算法在真实世界中的泛化能力。

当前挑战

ARKitScenes所应对的领域挑战主要体现在两方面：其一，现有室内三维物体检测方法在真实场景中表现欠佳，尤其对小尺寸物体（如炉灶、洗碗机、电视）的识别精度极低，且缺乏面向移动端传感器的定向三维边界框标注，导致算法难以适应家庭环境的多样性与光照变化；其二，彩色引导深度上采样任务长期依赖人工下采样或合成噪声的低分辨率数据，无法模拟真实LiDAR扫描中由主动传感产生的伪影与缺失区域。在数据集构建过程中，团队面临了严苛的技术挑战：需将手持iPad Pro的RGB-D帧与专业Faro激光扫描仪的高分辨率点云进行高精度空间配准，并通过自适应三角剖分与遮挡几何处理生成无遮挡的合成视图；同时，需在平均六小时的采集周期内保持场景完全静态，以应对日光变化带来的光照不一致问题，最终实现了大规模、高质量的真实室内数据标注。

常用场景

经典使用场景

ARKitScenes作为首个基于苹果LiDAR扫描仪捕获的大规模RGB-D室内场景数据集，为三维场景理解研究提供了前所未有的数据基础。其经典使用场景聚焦于三维物体检测与彩色引导深度上采样两大核心任务。在三维物体检测中，研究者可利用该数据集提供的17类家具级有向三维边界框标注，分别在单帧RGB-D图像和完整场景重建两个层面上训练与评估检测模型。在深度上采样任务中，数据集提供了由专业激光扫描仪采集的高分辨率深度真值，与移动设备低分辨率深度图形成配对，使模型能够在真实噪声与遮挡条件下学习从低分辨率到高分辨率的映射关系。

衍生相关工作

ARKitScenes的发布催生了一系列衍生研究工作，推动了室内三维视觉领域的持续演进。在三维物体检测方向，VoteNet、MLCVNet与H3DNet等经典方法均在ARKitScenes上进行了基准测试与改进，其中MLCVNet通过引入注意力机制和上下文聚合模块，在整体mAP上较VoteNet提升约6个百分点，验证了数据集对算法优化的引导作用。在深度上采样领域，多尺度引导网络（MSG）与多尺度渐进融合网络（MSPF）被适配至ARKitScenes的真实噪声场景，研究者针对数据集特有的缺失深度区域设计了鲁棒损失函数，使得模型在真实LiDAR数据上的上采样效果显著优于传统滤波方法。这些工作共同表明，ARKitScenes已成为连接学术创新与工业应用的桥梁性平台。

数据集最近研究