Locate 3D Dataset

github2025-04-18 更新2025-04-20 收录

下载链接：

https://github.com/facebookresearch/locate-3d

下载链接

链接失效反馈

官方服务：

资源简介：

Locate 3D Dataset是一个用于3D参考定位的新数据集，涵盖多个捕获设置，包含超过130K的注释。这使得能够系统地研究泛化能力以及构建更强的模型。

Locate 3D Dataset is a novel dataset for 3D reference localization, encompassing multiple capture setups and containing over 130K annotations. This enables a systematic investigation of generalization capabilities and the construction of more robust models.

创建时间：

2025-04-02

原始信息汇总

Locate 3D数据集概述

数据集简介

名称：Locate 3D Dataset
用途：用于3D参考接地（referential grounding）研究
特点：
- 包含多个捕获设置的超过130K标注
- 支持系统性研究模型的泛化能力

数据集内容

数据类型：3D点云数据
标注类型：3D掩码和边界框
数据来源：传感器观测流（posed RGB-D frames）

许可证

数据许可证：CC-BY-NC 4.0
- 部分数据来自Llama 3.2，需遵守Llama 3.2许可证
代码许可证：
- 主要部分：CC-BY-NC
- Pointcept部分：MIT许可证

引用

bibtex @article{arnaudmcvay2025locate3d, title={Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D}, author={Sergio Arnaud*, Paul McVay*, Ada Martin*, Arjun Majumdar, Krishna Murthy Jatavallabhula, Phillip Thomas, Ruslan Partsey, Daniel Dugas, Abha Gejji, Alexander Sax, Vincent-Pierre Berges, Mikael Henaff, Ayush Jain, Ang Cao, Ishita Prasad, Mrinal Kalakrishnan, Michael Rabbat, Nicolas Ballas, Mido Assran, Oleksandr Maksymets, Aravind Rajeswaran, Franziska Meier}, journal={arXiv}, year={2025}, url={https://ai.meta.com/research/publications/locate-3d-real-world-object-localization-via-self-supervised-learning-in-3d} }

搜集汇总

数据集介绍

构建方式

在三维物体定位领域，Locate 3D数据集的构建采用了多模态数据融合的策略。该数据集通过整合多种捕获设备获取的RGB-D帧序列，结合自监督学习算法3D-JEPA对点云数据进行特征提取，最终形成了包含超过13万条标注的三维参照定位数据集。数据采集过程中，研究团队特别注重场景多样性，覆盖了不同环境下的物体空间分布，为模型提供了丰富的训练样本。

使用方法

使用Locate 3D数据集时，研究者可通过官方提供的代码库加载预处理好的数据。数据集支持端到端的模型训练流程，用户既可以基于3D-JEPA预训练编码器进行迁移学习，也可以直接使用原始点云数据进行模型训练。评估阶段提供了标准化的测试协议，支持对模型在真实场景下的定位精度和鲁棒性进行全面评测。为方便使用，官方还提供了示例代码展示数据加载和模型推理的完整流程。

背景与挑战

背景概述

Locate 3D数据集由Meta AI Research（FAIR）团队于2025年推出，旨在推动三维场景中物体定位技术的研究。该数据集专注于通过自然语言描述（如“沙发与台灯之间的小咖啡桌”）在三维环境中精确定位物体，为机器人技术和增强现实设备的实际应用提供了重要支持。数据集包含超过13万条标注，覆盖多种采集场景，为三维指代定位任务提供了系统性的研究基础。Locate 3D模型的创新性在于其结合了自监督学习算法3D-JEPA，直接从传感器观测数据（如RGB-D帧）中学习上下文感知的点云特征，显著提升了模型的泛化能力和定位精度。

当前挑战

Locate 3D数据集面临的挑战主要体现在两个方面：其一，三维指代定位任务本身具有高度复杂性，需同时处理多模态数据（如点云、语言描述）的语义对齐与空间推理，尤其在遮挡或动态场景中表现更为困难；其二，数据构建过程中需协调大规模三维标注的精度与效率，例如传感器数据的时空对齐、语言描述的歧义消除，以及跨设备采集数据的异构性处理。此外，数据许可涉及多源协议（如CC-BY-NC与Llama 3.2许可），进一步增加了合规使用的复杂性。

常用场景

经典使用场景

在三维场景理解与物体定位领域，Locate 3D Dataset通过融合多模态传感器数据与自然语言描述，为研究者提供了探索三维空间语义关联的基准平台。其最经典的应用场景在于训练模型根据‘沙发与台灯之间的小咖啡桌’等指代表达，在RGB-D点云序列中精准定位目标物体，推动了具身智能与增强现实系统中的人机交互研究。

解决学术问题

该数据集有效解决了三维场景理解中跨模态对齐的学术难题，通过13万条标注数据系统验证了自监督学习在点云特征提取中的潜力。其提出的3D-JEPA框架突破了传统监督学习对大量人工标注的依赖，为三维视觉与语言 grounding 任务建立了新的评估范式，显著提升了模型在未见场景中的泛化性能。

实际应用

在实际部署层面，数据集支撑的定位技术已应用于家庭服务机器人的物体抓取导航，通过实时解析自然语言指令与深度相机数据，实现动态环境中的高精度操作。Meta AR设备利用该技术开发了虚实融合的交互系统，用户可通过语音指令直接操控三维空间中的虚拟对象。

数据集最近研究

Locate 3D Dataset

Locate 3D数据集概述

数据集简介

数据集内容

相关模型

许可证

引用