five

Locate 3D Dataset

收藏
github2025-04-18 更新2025-04-20 收录
下载链接:
https://github.com/facebookresearch/locate-3d
下载链接
链接失效反馈
官方服务:
资源简介:
Locate 3D Dataset是一个用于3D参考定位的新数据集,涵盖多个捕获设置,包含超过130K的注释。这使得能够系统地研究泛化能力以及构建更强的模型。

Locate 3D Dataset is a novel dataset for 3D reference localization, encompassing multiple capture setups and containing over 130K annotations. This enables a systematic investigation of generalization capabilities and the construction of more robust models.
创建时间:
2025-04-02
原始信息汇总

Locate 3D数据集概述

数据集简介

  • 名称:Locate 3D Dataset
  • 用途:用于3D参考接地(referential grounding)研究
  • 特点
    • 包含多个捕获设置的超过130K标注
    • 支持系统性研究模型的泛化能力

数据集内容

  • 数据类型:3D点云数据
  • 标注类型:3D掩码和边界框
  • 数据来源:传感器观测流(posed RGB-D frames)

相关模型

  • Locate 3D
    • 参数量:600M
    • 链接:https://huggingface.co/facebook/locate-3d
  • Locate 3D+
    • 参数量:600M
    • 链接:https://huggingface.co/facebook/locate-3d-plus
  • 3D-JEPA
    • 参数量:300M
    • 链接:https://huggingface.co/facebook/3d-jepa

许可证

  • 数据许可证:CC-BY-NC 4.0
    • 部分数据来自Llama 3.2,需遵守Llama 3.2许可证
  • 代码许可证
    • 主要部分:CC-BY-NC
    • Pointcept部分:MIT许可证

引用

bibtex @article{arnaudmcvay2025locate3d, title={Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D}, author={Sergio Arnaud*, Paul McVay*, Ada Martin*, Arjun Majumdar, Krishna Murthy Jatavallabhula, Phillip Thomas, Ruslan Partsey, Daniel Dugas, Abha Gejji, Alexander Sax, Vincent-Pierre Berges, Mikael Henaff, Ayush Jain, Ang Cao, Ishita Prasad, Mrinal Kalakrishnan, Michael Rabbat, Nicolas Ballas, Mido Assran, Oleksandr Maksymets, Aravind Rajeswaran, Franziska Meier}, journal={arXiv}, year={2025}, url={https://ai.meta.com/research/publications/locate-3d-real-world-object-localization-via-self-supervised-learning-in-3d} }

搜集汇总
数据集介绍
main_image_url
构建方式
在三维物体定位领域,Locate 3D数据集的构建采用了多模态数据融合的策略。该数据集通过整合多种捕获设备获取的RGB-D帧序列,结合自监督学习算法3D-JEPA对点云数据进行特征提取,最终形成了包含超过13万条标注的三维参照定位数据集。数据采集过程中,研究团队特别注重场景多样性,覆盖了不同环境下的物体空间分布,为模型提供了丰富的训练样本。
使用方法
使用Locate 3D数据集时,研究者可通过官方提供的代码库加载预处理好的数据。数据集支持端到端的模型训练流程,用户既可以基于3D-JEPA预训练编码器进行迁移学习,也可以直接使用原始点云数据进行模型训练。评估阶段提供了标准化的测试协议,支持对模型在真实场景下的定位精度和鲁棒性进行全面评测。为方便使用,官方还提供了示例代码展示数据加载和模型推理的完整流程。
背景与挑战
背景概述
Locate 3D数据集由Meta AI Research(FAIR)团队于2025年推出,旨在推动三维场景中物体定位技术的研究。该数据集专注于通过自然语言描述(如“沙发与台灯之间的小咖啡桌”)在三维环境中精确定位物体,为机器人技术和增强现实设备的实际应用提供了重要支持。数据集包含超过13万条标注,覆盖多种采集场景,为三维指代定位任务提供了系统性的研究基础。Locate 3D模型的创新性在于其结合了自监督学习算法3D-JEPA,直接从传感器观测数据(如RGB-D帧)中学习上下文感知的点云特征,显著提升了模型的泛化能力和定位精度。
当前挑战
Locate 3D数据集面临的挑战主要体现在两个方面:其一,三维指代定位任务本身具有高度复杂性,需同时处理多模态数据(如点云、语言描述)的语义对齐与空间推理,尤其在遮挡或动态场景中表现更为困难;其二,数据构建过程中需协调大规模三维标注的精度与效率,例如传感器数据的时空对齐、语言描述的歧义消除,以及跨设备采集数据的异构性处理。此外,数据许可涉及多源协议(如CC-BY-NC与Llama 3.2许可),进一步增加了合规使用的复杂性。
常用场景
经典使用场景
在三维场景理解与物体定位领域,Locate 3D Dataset通过融合多模态传感器数据与自然语言描述,为研究者提供了探索三维空间语义关联的基准平台。其最经典的应用场景在于训练模型根据‘沙发与台灯之间的小咖啡桌’等指代表达,在RGB-D点云序列中精准定位目标物体,推动了具身智能与增强现实系统中的人机交互研究。
解决学术问题
该数据集有效解决了三维场景理解中跨模态对齐的学术难题,通过13万条标注数据系统验证了自监督学习在点云特征提取中的潜力。其提出的3D-JEPA框架突破了传统监督学习对大量人工标注的依赖,为三维视觉与语言 grounding 任务建立了新的评估范式,显著提升了模型在未见场景中的泛化性能。
实际应用
在实际部署层面,数据集支撑的定位技术已应用于家庭服务机器人的物体抓取导航,通过实时解析自然语言指令与深度相机数据,实现动态环境中的高精度操作。Meta AR设备利用该技术开发了虚实融合的交互系统,用户可通过语音指令直接操控三维空间中的虚拟对象。
数据集最近研究
最新研究方向
随着三维视觉与自然语言处理的交叉领域迅速发展,Locate 3D数据集凭借其13万条标注的多元场景数据,正推动三维指代定位技术迈向新高度。该数据集通过融合多模态传感器数据与自监督学习框架3D-JEPA,为机器人导航、增强现实等应用提供了更鲁棒的语义理解基础。当前研究聚焦于提升模型在开放环境中的零样本泛化能力,探索如何将CLIP等二维基础模型的视觉先验知识迁移至三维点云表征学习。Meta AI最新提出的联合预测掩码与边界框的架构,显著降低了复杂场景中语言描述与三维空间的对齐难度,为具身智能领域的语言引导交互任务树立了新基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作