Grounded Language Dataset (GoLD)

Name: Grounded Language Dataset (GoLD)
Creator: 马里兰大学巴尔的摩分校
Published: 2020-09-29 00:47:50
License: 暂无描述

arXiv2020-09-29 更新2024-06-21 收录

下载链接：

https://github.com/iral-lab/UMBC GLD

下载链接

链接失效反馈

官方服务：

资源简介：

Grounded Language Dataset (GoLD) 是一个多模态数据集，包含常见家用物品的图像和深度点云，以及人们使用口语或书面语言对其进行的描述。该数据集由马里兰大学巴尔的摩分校创建，旨在支持机器人、自然语言处理和人类计算机交互领域的研究。数据集包含47个对象类别，分布在五个高级别类别中，每个类别包含四到五个实例，总计207个对象实例。在创建过程中，对象在转盘上旋转，从不同角度捕捉图像和深度数据。GoLD数据集的应用领域包括开发能够理解和响应自然语言命令的机器人，以及研究多模态（图像、文本和语音）之间的交互。

Grounded Language Dataset (GoLD) is a multimodal dataset comprising images and depth point clouds of everyday household objects, paired with their descriptions in either spoken or written language. Developed by the University of Maryland, Baltimore County, this dataset aims to support research across robotics, natural language processing, and human-computer interaction domains. The dataset encompasses 47 object categories, which are organized under five high-level classes. Each high-level category contains 4 to 5 individual instances, resulting in a total of 207 object instances. During its construction, objects were rotated on a turntable, with images and depth data captured from multiple perspectives. Application use cases for the GoLD dataset include developing robots capable of understanding and responding to natural language commands, as well as investigating cross-modal interactions between images, text, and speech.

提供机构：

马里兰大学巴尔的摩分校

创建时间：

2020-07-30

搜集汇总

数据集介绍

构建方式

在机器人学与自然语言处理的交叉领域，Grounded Language Dataset (GoLD) 的构建体现了多模态数据采集的系统性方法。该数据集通过微软Azure Kinect RGB-D相机采集了47类常见家居物品的视觉数据，涵盖食品、家居、医疗、办公和工具五大类别，共计207个物品实例。每个物品置于转台上旋转拍摄，从中选取四个代表性视角的帧图像，形成825组彩色与深度点云图像对。语言数据则通过亚马逊众包平台收集，针对每帧图像分别获取文本描述与语音描述，最终汇集8250条文本描述与4059条语音描述，语音部分通过谷歌语音转文本API自动转录，并辅以人工质量评估。

特点

GoLD数据集的核心特点在于其严格对齐的多模态结构与真实场景下的语言多样性。视觉数据不仅提供高分辨率的RGB图像，还包含精确的深度点云信息，能够支持三维空间感知研究。语言模态同时涵盖书面文本与自发语音，揭示了人类在书写与口语描述中的细微差异，例如语音描述中更多填充词的使用。数据集覆盖的家居物品类别经过精心选择，反映了家庭服务机器人实际应用场景，且每个物品的多个视角确保了视觉-语言关联的鲁棒性。自动转录的语音数据保留了真实交互中的噪声与不完整性，为研究噪声环境下的语言理解提供了宝贵资源。

使用方法

该数据集适用于跨模态表示学习与接地语言获取研究。典型应用包括通过流形对齐技术将视觉与语言特征映射到共享嵌入空间，利用三元组损失函数学习模态间的语义对应关系。研究人员可分别提取图像的深度卷积特征与文本的BERT嵌入，构建联合表示模型，实现基于语言的物体检索或基于视觉的描述生成。数据集支持对比分析文本与语音模态对学习性能的影响，并可探索视角变化对语言描述的影响。此外，其多类别结构便于开展领域适应与零样本学习实验，为开发家庭环境中的自然语言交互系统提供基准数据。

背景与挑战

背景概述

扎根语言学习作为机器人学、自然语言处理与人机交互领域的核心议题，旨在探索语言符号如何与现实世界中的物体、任务及环境建立映射关系。2020年，马里兰大学巴尔的摩分校的研究团队正式发布了扎根语言数据集（GoLD），该数据集聚焦于日常家居物品的多模态描述，涵盖了47类物品的RGB与深度点云图像，并收集了8250条文本描述与4059条语音描述。GoLD的构建旨在弥合传统研究中过于依赖规整文本数据的局限，通过整合视觉、文本与语音三种模态，为开发能够在动态人机交互场景中理解自然语言的智能系统提供了关键数据支撑，尤其在家庭服务机器人、辅助护理等应用场景中展现出重要价值。

当前挑战

GoLD数据集致力于解决扎根语言理解中的核心挑战，即如何让机器在多变且非结构化的真实环境中，准确关联多模态输入——尤其是包含噪声的语音指令与视觉感知。具体而言，构建过程中的挑战主要体现在两方面：其一，在数据采集阶段，确保语音描述转录的准确性是一大难题，尽管采用了自动语音识别技术，但转录错误率仍达到约21.3%，部分描述甚至因环境噪音或表述模糊而无法使用；其二，数据标注需平衡不同描述角度与语言习惯的多样性，例如同一物体从不同视角呈现时，描述可能侧重外观、功能或材质，这要求数据集能够支持超越预设类别的开放概念学习，从而增加了标注与后续模型训练的复杂性。

常用场景

经典使用场景

在具身语言学习领域，Grounded Language Dataset (GoLD) 为研究者提供了一个多模态基准，用于探索语言如何与物理世界中的对象建立关联。该数据集整合了日常家居物品的RGB-D图像与自然语言描述，涵盖文本和语音两种形式，使得模型能够学习从视觉感知到语言表达的映射关系。经典应用场景包括训练机器人理解人类对物体的口头或书面描述，从而在动态环境中执行抓取、识别或导航等任务，为具身智能体的交互能力奠定基础。

衍生相关工作

基于GoLD 数据集，研究者开展了多项经典工作，主要集中在多模态对齐和语言模型的应用上。例如，利用流形对齐技术结合三元组损失函数，将视觉和语言特征嵌入到共享的低维空间，以实现跨模态检索。此外，该数据集促进了针对语音和文本差异的对比研究，探索了自动语音识别噪声对语言学习的影响。这些工作不仅推动了具身语言学习算法的发展，还为后续研究提供了基准，启发了更复杂的多模态融合模型在机器人领域的应用。

数据集最近研究