OCID-Ref

arXiv2021-04-14 更新2024-07-30 收录

下载链接：

https://github.com/lluma/OCID-Ref

下载链接

链接失效反馈

官方服务：

资源简介：

OCID-Ref数据集包含305,694个参照表达式，来自2,300个场景，提供RGB图像和点云输入，用于解决遮挡物体的参照表达式分割任务。

The OCID-Ref dataset contains 305,694 referring expressions from 2,300 scenes, and provides RGB images and point cloud inputs to address the referring expression segmentation task for occluded objects.

创建时间：

2021-03-13

原始信息汇总

OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding

数据集概述

OCID-Ref 是一个包含 305,694 个引用表达式的新型数据集，源自 2,300 个场景，提供 RGB 图像和点云输入。该数据集专注于引用表达式分割任务，特别针对被遮挡物体的视觉定位。

数据集内容

引用表达式数量：305,694
场景数量：2,300
数据类型：RGB 图像和点云

数据集下载

原始 RGBD 数据：需从 OCID 下载。
清理后的标注和引用表达式：可从 GDRIVE 下载。

使用说明

详细的使用说明请参考 instruction.txt。

引用

@inproceedings{wang-etal-2021-ocid, title = "{OCID}-Ref: A 3{D} Robotic Dataset With Embodied Language For Clutter Scene Grounding", author = "Wang, Ke-Jyun and Liu, Yun-Hsuan and Su, Hung-Ting and Wang, Jen-Wei and Wang, Yu-Siang and Hsu, Winston and Chen, Wen-Chin", booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", month = jun, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.naacl-main.419", doi = "10.18653/v1/2021.naacl-main.419", pages = "5333--5338" }

许可证

该数据集遵循 MIT 许可证（详细信息见 LICENSE）。

搜集汇总

数据集介绍

构建方式

OCID-Ref数据集的构建，首先基于已有的机器人室内杂乱场景数据集OCID，该数据集包含了丰富的3D点云数据和逐点实例标签。其次，通过手动标注物体的细粒度属性和关系，如颜色、形状、大小关系或空间关系。最后，利用类似场景图生成系统的算法，根据标注的属性和关系生成指代表达式。

使用方法

OCID-Ref数据集的使用，首先需要准备相应的2D（RGB）和3D（点云）输入信号。其次，使用ResNet-101基础模型进行2D特征提取，并利用PointNet模型进行3D特征提取。最后，通过融合模块将2D和3D信号进行融合，以提高模型在遮挡场景中的性能。

背景与挑战

背景概述

视觉接地（Visual Grounding, VG）是自然语言处理（NLP）、计算机视觉（CV）和机器人学中的一个关键任务，旨在根据结构化语言查询定位对象。随着人机交互（HRI）的发展，VG在HRI中的应用越来越受到关注。为了应对工作环境中物体遮挡的挑战，王克俊等研究人员于2021年提出了OCID-Ref数据集。该数据集由来自2300个场景的305,694个指代表达式组成，包括RGB图像和点云输入，旨在评估视觉接地系统在处理遮挡物体方面的性能。OCID-Ref数据集的提出，为HRI中的VG研究开辟了新的路径，并为研究社区和应用开发带来了益处。

当前挑战

OCID-Ref数据集面临的主要挑战包括：1) 遮挡问题：在工作环境中，物体往往被遮挡，这给视觉接地系统带来了挑战。实验结果表明，从自由场景到堆叠场景，性能下降了27%到34%，这表明遮挡是现代VG模型面临的一个重要问题。2) 3D信号的利用：虽然3D信号可以提供更精确的位置线索，但如何有效地利用和融合2D和3D信号仍然是研究的重点。实验结果表明，融合2D和3D信号可以在所有杂乱程度下达到最佳性能。3) 长表达式的处理：实验结果表明，当表达式的长度较长时，所有模型的性能都会下降。这表明，如何处理长表达式仍然是研究的一个挑战。

常用场景

经典使用场景

在机器人与人交互的场景中，视觉定位（Visual Grounding, VG）技术至关重要。OCID-Ref数据集为这一领域提供了丰富的资源，其核心任务是根据指向性语言描述对遮挡物体进行分割。该数据集由2300个场景构成，包含305,694个指向性语言描述，并提供了RGB图像和点云数据。其设计旨在解决现实工作环境中物体遮挡问题，如办公室或仓库。OCID-Ref数据集的多模态特性使其在视觉定位研究中具有重要价值，特别是在需要机器人理解和执行人类指令的场合。

解决学术问题

视觉定位技术在现实世界中面临诸多挑战，尤其是物体遮挡问题。OCID-Ref数据集通过提供具有遮挡物体的丰富场景，为解决这一难题提供了重要工具。该数据集展示了现有视觉定位系统在面对遮挡物体时的性能下降，并强调了融合二维和三维信号的重要性。此外，OCID-Ref数据集还揭示了长句和复杂关系对视觉定位性能的影响，为学术研究提供了新的方向。

实际应用

OCID-Ref数据集的实际应用场景主要集中在对机器人交互能力的需求上。在办公室、仓库等拥挤的环境中，机器人需要根据人类的指向性语言指令识别并操作遮挡物体。OCID-Ref数据集通过提供大量的指向性语言描述和相应的三维信息，为机器人视觉定位算法的训练和评估提供了宝贵资源。这使得机器人在执行抓取、跟踪等任务时，能够更好地理解人类的指令，并在复杂环境中准确识别和操作目标物体。

数据集最近研究