OCID-VLG|机器人抓取数据集|视觉语言交互数据集

github2023-11-09 更新2025-02-19 收录

机器人抓取

视觉语言交互

下载链接：

https://github.com/gtziafas/OCID-VLG

下载链接

链接失效反馈

资源简介：

OCID-VLG是由格罗宁根大学、爱丁堡大学和伦敦大学学院联合创建的视觉语言抓取数据集，旨在为复杂场景下的语言引导机器人抓取任务提供基准。该数据集包含1763个高杂乱度的室内桌面RGB-D场景，涵盖31个类别、58个独特实例，提供2D分割掩码、边界框以及4自由度抓取标注。通过对OCID-Grasp数据集的场景图进行解析，生成89,639个独特的语言-掩码-抓取标注元组，支持视觉定位与抓取合成的端到端学习。OCID-VLG的创建过程结合了自动表达式生成技术，确保标注的多样性和准确性。其主要应用于机器人抓取任务，特别是在自然语言指令引导下的复杂室内场景抓取。数据集的发布为机器人视觉语言交互领域提供了宝贵的资源，推动了相关技术的发展。

提供机构：

格罗宁根大学、爱丁堡大学和伦敦大学学院

创建时间：

2023-11-09

原始信息汇总

OCID-VLG 数据集概述

数据集简介

OCID-VLG 是一个针对杂乱室内场景的语言引导抓取任务的数据集。该数据集基于 OCID-Grasp，为每个场景提供了一个自然语言表达的参照表达式来唯一描述目标对象，以及对应的抓取矩形框的地面真实值。

数据集构成

图像-文本-掩膜-抓取元组：包含 89,639 个图像-文本-掩膜-抓取元组，来自 1763 个独特的 OCID 场景。
场景类型：包含多种场景，每个场景包含一个或多个参照表达式和对应的目标对象。

数据集版本

multiple：随机训练-验证-测试分割（70%-10%-20%），每个分割包含来自 OCID 数据集的独特场景，每个场景有多个针对同一目标对象的参照表达式。
unique：随机训练-验证-测试分割（70%-10%-20%），每个分割包含来自 OCID 数据集的独特场景，每个场景对每个目标对象只有一个参照表达式。
novel-instances：测试分割包含针对训练-验证分割中不存在的对象实例的参照表达式。
novel-classes：测试分割包含针对训练-验证分割中不存在的对象类的参照表达式。

数据加载

使用 OCIDVLGDataset 类从 torch.utils.data.Dataset 加载数据集，支持图像预处理。

数据样本结构

img：场景图像（480, 640, 3）
depth：场景深度图像（480, 640）
sentence：目标对象的参照表达式
target：目标对象标签
target_idx：目标对象标签的唯一索引
bbox：目标对象的边界框坐标
mask：目标对象的像素级分割掩膜
grasps：目标对象的抓取矩形框
grasp_masks：抓取掩膜，包括位置、质量、角度和宽度

参考文献

@inproceedings{tziafas2023language, title={Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter}, author={Tziafas, Georgios and Yucheng, XU and Goel, Arushi and Kasaei, Mohammadreza and Li, Zhibin and Kasaei, Hamidreza}, booktitle={7th Annual Conference on Robot Learning}, year={2023} }

AI搜集汇总

数据集介绍

构建方式

OCID-VLG数据集是在OCID-Grasp数据集的基础上构建的，旨在通过自然语言指导下的抓取任务，实现端到端的训练。该数据集在每个场景中提供了一个指向目标对象的自然语言表达式，以及对应的抓取矩形框的地面真实值。数据集的构建融合了图像、文本、掩模和抓取信息，形成了89,639个图像-文本-掩模-抓取元组，源自OCID数据集中的1,763个独特场景。

使用方法

使用OCID-VLG数据集时，用户需首先创建一个Python3虚拟环境并安装必要的依赖。数据集可通过提供的OCIDVLGDataset类加载，该类继承自torch.utils.data.Dataset。用户可以定义图像的预处理转换，并根据需要选择是否包含像素级掩模。数据集API支持通过版本键初始化时选择不同的数据集版本，以适应不同的实验设置。

背景与挑战

背景概述

OCID-VLG数据集，致力于研究自然语言引导下的抓取任务。该数据集的构建基于OCID-Grasp，旨在缩小合成实验室环境与自然家庭场景之间的分布差距，后者通常包含杂乱物品。OCID-VLG数据集的创建，提供了89,639个图像-文本-掩膜-抓取元组，涵盖1763个独特的OCID场景。该数据集的问世，得益于多个研究机构和学者的共同努力，包括OCID、OCID-Grasp和OCID-Ref等前期工作的基础上，为机器人抓取和视觉语言领域的研究提供了新的资源，对相关领域产生了显著影响。

当前挑战

该数据集在解决自然场景下语言引导抓取任务的同时，面临以下挑战：1）如何准确地进行指代图像分割，以识别出自然语言描述的目标对象；2）如何合成精确的抓取矩形框，以实现对目标对象的有效抓取。此外，在构建过程中，数据集需要克服的挑战包括如何处理自然场景的杂乱性，以及如何确保不同场景中目标对象的唯一性描述。在数据集划分上，还需处理新实例和新类别的引入，以评估模型对于未见数据的泛化能力。

常用场景

经典使用场景

在视觉与语言结合的领域，OCID-VLG数据集提供了一个端到端的语言引导抓取任务的研究平台。该数据集通过在自然室内场景中包含的杂乱环境中，提供自然语言描述的目标对象以及相应的抓取矩形框，使得研究者能够在接近现实世界的环境下，进行语言引导的抓取策略学习。

解决学术问题

OCID-VLG数据集解决了传统在合成实验室环境中研究语言引导抓取任务所带来的分布差距问题。通过提供包含真实室内场景的图像、文本、掩膜和抓取信息，该数据集有助于提升模型在自然场景下的泛化能力和鲁棒性，为学术研究提供了新的视角和挑战。

实际应用

实际应用中，OCID-VLG数据集可用于开发智能机器人系统，使机器人在理解自然语言指令后能够准确执行抓取任务，特别是在家居自动化、服务机器人以及工业自动化等领域具有广泛的应用前景。

数据集最近研究

最新研究方向

OCID-VLG数据集致力于研究自然语言引导下的抓取任务，在端到端的模式下进行。该数据集的构建弥补了先前研究多在合成实验室环境中进行，与自然家庭场景存在较大分布差距的不足。OCID-VLG基于OCID-Grasp数据集，为每个场景提供了一种自然语言的参考表达，用以唯一描述目标对象，并伴随真实抓取矩形框。该数据集在引用图像分割和引用抓取合成两个任务上进行了基准测试，为机器人在杂乱室内场景中的抓取任务提供了新的研究方向，对于推动机器人视觉与自然语言处理领域的发展具有重要意义。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录