RIORefer

arXiv2024-02-07 更新2024-06-21 收录

下载链接：

https://github.com/ATR-DBI/Cross3DVG

下载链接

链接失效反馈

官方服务：

资源简介：

RIORefer数据集是由ATR研究机构创建的大型3D视觉定位数据集，旨在克服现有3D视觉定位模型在特定3D数据集上的局限性。该数据集包含超过63,000个多样化的3D对象描述，这些描述分布在1,380个室内RGB-D扫描中，均由人工标注。RIORefer数据集的创建是为了支持Cross3DVG任务，该任务涉及在不同的3D扫描系统上进行3D视觉定位，以评估模型在不同传感器、3D重建方法和语言标注者下的性能。此数据集的应用领域包括增强现实/虚拟现实和个人机器人，旨在通过语言理解实现对真实世界的详细阐释。

The RIORefer dataset is a large-scale 3D visual grounding dataset created by the ATR research institute, aiming to address the limitations of existing 3D visual grounding models on specific 3D datasets. This dataset contains over 63,000 diverse 3D object descriptions, which are distributed across 1,380 indoor RGB-D scans and all are manually annotated. The RIORefer dataset is developed to support the Cross3DVG task, which involves 3D visual grounding across different 3D scanning systems to evaluate model performance across varying sensors, 3D reconstruction methods, and language annotators. The application scenarios of this dataset include augmented reality/virtual reality (AR/VR) and personal robotics, aiming to enable detailed interpretation of the real world through language understanding.

提供机构：

ATR

创建时间：

2023-05-23

搜集汇总

数据集介绍

构建方式

在三维视觉与语言交叉领域，数据集的构建质量直接影响模型的泛化能力。RIORefer数据集基于3RScan室内RGB-D扫描数据，通过众包平台进行人工标注，构建过程严谨而系统。首先对原始3D扫描数据进行自动轴对齐预处理，以解决边界框错位问题，确保几何一致性。随后开发了交互式标注网站，要求标注者根据三维场景和物体相关图像，撰写能够唯一识别物体的详细描述，涵盖外观、位置及与其他物体的空间关系。标注完成后，通过专门的验证网站进行质量检查，剔除不完整或模糊的描述，并对相应物体重新标注，最终为每个物体收集两个不同视角的描述，以捕捉语言表达的多样性。

特点

RIORefer数据集在规模与多样性上具有显著优势，包含超过6.3万条描述，覆盖1380个室内扫描场景中的3.1万余个物体，其词汇量达到6952，超越了同类数据集。该数据集源自Google Tango设备采集的3RScan数据，在传感器类型、三维重建方法和语言标注风格上与基于Structure Sensor的ScanRefer形成鲜明对比，为跨数据集三维视觉定位研究提供了天然差异。数据统计分析显示，RIORefer的描述平均长度较短但词汇更丰富，物体类别分布与ScanRefer存在差异，部分在ScanRefer中常见的物体在RIORefer中并未出现，这种数据分布差异真实反映了不同采集环境下的场景特性，对模型的跨数据集泛化能力提出了严峻挑战。

使用方法

RIORefer数据集主要用于评估三维视觉定位模型的跨数据集泛化性能，其典型使用模式是在一个数据集上训练模型，在另一个数据集上进行零样本测试。研究通常采用Acc@0.25和Acc@0.5作为评估指标，即预测边界框与真实边界框的交并比超过阈值的比例。数据集支持多种基线方法，包括基于VoteNet或DETR3D的对象检测模块与MLP或Transformer的定位模块组合。为提升跨数据集性能，可引入CLIP先验知识，通过多视角二维图像特征与三维点云特征的融合来弥合数据集间的差异。使用时应特别注意数据预处理的一致性，并可通过消融实验分析不同特征对性能的影响，例如几何信息相比颜色信息在跨数据集任务中表现出更强的鲁棒性。

背景与挑战

背景概述

随着三维扫描技术的普及与三维感知方法的显著进步，三维视觉与语言交叉领域的研究日益深入，其中三维视觉定位任务旨在根据自然语言描述在三维场景中精确定位对应物体。然而，现有研究主要依赖单一数据集（如基于ScanNet的ScanRefer），导致模型易出现过拟合，泛化能力受限。为应对这一挑战，研究团队于近年创建了RIORefer数据集，该数据集由ATR、京都大学和RIKEN AIP等机构的研究人员共同构建，基于3RScan数据集的1,380个室内RGB-D扫描，标注了超过6.3万条多样化的语言描述。RIORefer不仅规模超越现有基准，其核心研究问题聚焦于推动跨数据集三维视觉定位的发展，通过引入不同传感器、重建方法和语言标注的数据，显著提升了该领域对现实复杂场景的适应能力，为三维视觉与语言理解的鲁棒性研究奠定了重要基础。

当前挑战

RIORefer数据集致力于解决三维视觉定位中的跨数据集泛化难题，其核心挑战在于模型需克服不同数据集间三维数据与语言描述的显著差异。具体而言，数据采集设备（如Tango与Structure Sensor）和重建方法的不同导致点云密度、颜色分布及物体几何特征存在偏差，加之标注语言在词汇、句长和描述视角上的多样性，共同加剧了模型跨域适应的难度。在构建过程中，挑战主要体现在高质量标注的获取：需通过众包平台进行精细的手动标注与验证，确保描述能唯一标识物体并涵盖外观、位置及空间关系等多维度信息，同时通过轴对齐预处理解决三维数据中的边界框错位问题，以保障数据的一致性与可靠性。

常用场景

经典使用场景

在三维视觉与语言交叉研究领域，RIORefer数据集作为跨数据集三维视觉定位任务的核心基准，其经典使用场景聚焦于评估模型在不同传感器采集、不同重建方法生成的三维场景间的泛化能力。该数据集通过提供基于3RScan扫描的大规模语言标注，与ScanRefer形成互补对，使研究者能够系统分析模型在零样本设置下从源数据集迁移至目标数据集时的性能变化，从而揭示现有方法对单一数据集的过拟合现象。

衍生相关工作

围绕RIORefer数据集，衍生出一系列旨在提升跨数据集泛化能力的研究工作。例如，论文中提出的CLIP先验与多视图二维三维特征融合的基线模型，为后续研究提供了重要范式。相关工作进一步探索了更强大的三维物体检测器、改进的语言-几何对齐模块，以及利用大规模视觉语言预训练模型的知识迁移策略。这些工作共同推动了三维视觉定位领域向更鲁棒、更通用的方向发展。

数据集最近研究