five

OCID-Ref

收藏
arXiv2021-04-14 更新2024-07-30 收录
下载链接:
https://github.com/lluma/OCID-Ref
下载链接
链接失效反馈
官方服务:
资源简介:
OCID-Ref数据集包含305,694个参照表达式,来自2,300个场景,提供RGB图像和点云输入,用于解决遮挡物体的参照表达式分割任务。

The OCID-Ref dataset contains 305,694 referring expressions from 2,300 scenes, and provides RGB images and point cloud inputs to address the referring expression segmentation task for occluded objects.
创建时间:
2021-03-13
原始信息汇总

OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding

数据集概述

OCID-Ref 是一个包含 305,694 个引用表达式的新型数据集,源自 2,300 个场景,提供 RGB 图像和点云输入。该数据集专注于引用表达式分割任务,特别针对被遮挡物体的视觉定位。

数据集内容

  • 引用表达式数量:305,694
  • 场景数量:2,300
  • 数据类型:RGB 图像和点云

数据集下载

  • 原始 RGBD 数据:需从 OCID 下载。
  • 清理后的标注和引用表达式:可从 GDRIVE 下载。

使用说明

详细的使用说明请参考 instruction.txt

引用

@inproceedings{wang-etal-2021-ocid, title = "{OCID}-Ref: A 3{D} Robotic Dataset With Embodied Language For Clutter Scene Grounding", author = "Wang, Ke-Jyun and Liu, Yun-Hsuan and Su, Hung-Ting and Wang, Jen-Wei and Wang, Yu-Siang and Hsu, Winston and Chen, Wen-Chin", booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", month = jun, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.naacl-main.419", doi = "10.18653/v1/2021.naacl-main.419", pages = "5333--5338" }

许可证

该数据集遵循 MIT 许可证(详细信息见 LICENSE)。

搜集汇总
数据集介绍
main_image_url
构建方式
OCID-Ref数据集的构建,首先基于已有的机器人室内杂乱场景数据集OCID,该数据集包含了丰富的3D点云数据和逐点实例标签。其次,通过手动标注物体的细粒度属性和关系,如颜色、形状、大小关系或空间关系。最后,利用类似场景图生成系统的算法,根据标注的属性和关系生成指代表达式。
使用方法
OCID-Ref数据集的使用,首先需要准备相应的2D(RGB)和3D(点云)输入信号。其次,使用ResNet-101基础模型进行2D特征提取,并利用PointNet模型进行3D特征提取。最后,通过融合模块将2D和3D信号进行融合,以提高模型在遮挡场景中的性能。
背景与挑战
背景概述
视觉接地(Visual Grounding, VG)是自然语言处理(NLP)、计算机视觉(CV)和机器人学中的一个关键任务,旨在根据结构化语言查询定位对象。随着人机交互(HRI)的发展,VG在HRI中的应用越来越受到关注。为了应对工作环境中物体遮挡的挑战,王克俊等研究人员于2021年提出了OCID-Ref数据集。该数据集由来自2300个场景的305,694个指代表达式组成,包括RGB图像和点云输入,旨在评估视觉接地系统在处理遮挡物体方面的性能。OCID-Ref数据集的提出,为HRI中的VG研究开辟了新的路径,并为研究社区和应用开发带来了益处。
当前挑战
OCID-Ref数据集面临的主要挑战包括:1) 遮挡问题:在工作环境中,物体往往被遮挡,这给视觉接地系统带来了挑战。实验结果表明,从自由场景到堆叠场景,性能下降了27%到34%,这表明遮挡是现代VG模型面临的一个重要问题。2) 3D信号的利用:虽然3D信号可以提供更精确的位置线索,但如何有效地利用和融合2D和3D信号仍然是研究的重点。实验结果表明,融合2D和3D信号可以在所有杂乱程度下达到最佳性能。3) 长表达式的处理:实验结果表明,当表达式的长度较长时,所有模型的性能都会下降。这表明,如何处理长表达式仍然是研究的一个挑战。
常用场景
经典使用场景
在机器人与人交互的场景中,视觉定位(Visual Grounding, VG)技术至关重要。OCID-Ref数据集为这一领域提供了丰富的资源,其核心任务是根据指向性语言描述对遮挡物体进行分割。该数据集由2300个场景构成,包含305,694个指向性语言描述,并提供了RGB图像和点云数据。其设计旨在解决现实工作环境中物体遮挡问题,如办公室或仓库。OCID-Ref数据集的多模态特性使其在视觉定位研究中具有重要价值,特别是在需要机器人理解和执行人类指令的场合。
解决学术问题
视觉定位技术在现实世界中面临诸多挑战,尤其是物体遮挡问题。OCID-Ref数据集通过提供具有遮挡物体的丰富场景,为解决这一难题提供了重要工具。该数据集展示了现有视觉定位系统在面对遮挡物体时的性能下降,并强调了融合二维和三维信号的重要性。此外,OCID-Ref数据集还揭示了长句和复杂关系对视觉定位性能的影响,为学术研究提供了新的方向。
实际应用
OCID-Ref数据集的实际应用场景主要集中在对机器人交互能力的需求上。在办公室、仓库等拥挤的环境中,机器人需要根据人类的指向性语言指令识别并操作遮挡物体。OCID-Ref数据集通过提供大量的指向性语言描述和相应的三维信息,为机器人视觉定位算法的训练和评估提供了宝贵资源。这使得机器人在执行抓取、跟踪等任务时,能够更好地理解人类的指令,并在复杂环境中准确识别和操作目标物体。
数据集最近研究
最新研究方向
OCID-Ref数据集的最新研究方向在于利用视觉定位(VG)技术,特别是在机器人辅助工作环境中对遮挡物体的识别。该数据集的创建旨在解决现有VG数据集在办公室和仓库等实际工作环境中对象通常因空间利用问题而被遮挡的问题。OCID-Ref数据集包含了来自2300个场景的305,694个指代表达式,提供了RGB图像和点云输入。该数据集强调同时利用2D和3D信号来解决遮挡问题,实验结果表明,融合2D和3D信号可以有效提高性能。然而,对于现代视觉定位系统来说,指代遮挡物体仍然是一个挑战。OCID-Ref数据集的发布为视觉定位在人类-机器人交互(HRI)中的研究开辟了新的途径,并有望对研究社区和应用开发产生积极影响。
相关研究论文
  • 1
    OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding · 2021年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作