five

ReferIt3D

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/ReferIt3D
下载链接
链接失效反馈
官方服务:
资源简介:
在这项工作中,我们介绍了使用参考语言来识别现实世界 3D 场景中的常见对象的问题。我们专注于一个具有挑战性的设置,其中引用的对象属于细粒度对象类,并且底层场景包含该类的多个对象实例。由于现有的面向 3D 的语言资源稀缺且不适合这项任务,我们首先开发了两个大规模且互补的视觉语言数据集:i) Sr3D,其中包含 83.5K 基于模板的话语,利用细粒度之间的空间关系对象类来定位场景中的引用对象,以及 ii) Nr3D,其中包含通过在 3D 场景中部署 2 玩家对象引用游戏收集的 41.5K 自然、自由形式的话语。使用任一数据集的话语,人类听众可以以高(> 86%,92%)准确度识别所引用的对象。通过利用引入的数据,我们开发了新的神经侦听器,可以理解以对象为中心的自然语言并直接在 3D 场景中识别所引用的对象。一个关键的技术贡献是设计一种方法来组合语言和几何信息(以 3D 点云的形式)并创建多模 (3D) 神经侦听器。重要的是,我们表明通过图神经网络促进对象到对象通信的架构优于上下文不感知替代方案,并且细粒度对象分类是语言辅助 3D 对象识别的重要瓶颈。
提供机构:
OpenDataLab
创建时间:
2022-09-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作