Natural Language Instructions Corpus

github2024-02-29 更新2024-05-31 收录

下载链接：

https://github.com/personalrobotics/collaborative_manipulation_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1582条用于物体指定操作场景的自然语言指令，通过在线众包收集。这些指令与28个场景图像相关联，特别适用于自然语言处理、人机交互和机器人桌面操作领域的研究者。

This dataset comprises 1,582 natural language instructions for object-specific manipulation scenarios, collected through online crowdsourcing. These instructions are associated with 28 scene images, making it particularly suitable for researchers in the fields of natural language processing, human-computer interaction, and robotic desktop manipulation.

创建时间：

2016-07-13

原始信息汇总

数据集概述

数据集名称

Natural Language Instructions Corpus

数据集描述

内容: 包含1582条自然语言指令，用于指定操作场景中的对象。
来源: 通过在线众包收集。
应用领域: 自然语言处理、人机交互、机器人桌面操作。
特点: 提供丰富的领域特定语言数据，以及图像/指令对，用于系统评估和揭示桌面对象指定的内在挑战。

数据集组成部分

主要数据集
- 格式: CSV
- 文件:
  - NLICorpusData.csv
  - NLICorpusData_1400.csv (从1582条指令中抽样至1400条)
- 访问代码: access_NLICorpusData_CSV.py (Python)
- 数据结构: 包含指令、索引、场景、代理类型、难度等字段。
辅助数据集
- 名称: Instruction Evaluation
- 格式: JSON, CSV
- 文件:
  - evaluationData.json
  - evaluationData.csv
  - evaluationDataAvg.json
  - evaluationDataAvg.csv
- 访问代码:
  - access_evaluationData_JSON.py
  - access_evaluationData_CSV.py
- 数据结构: 包含指令、索引、场景、单词数量、目标块ID等字段。

数据集使用示例

主要数据集示例: 包含一条指令及其详细信息，如难度、完成时间等。
辅助数据集示例: 包含评估指令的详细信息，如正确性、评估时间等。

数据集相关出版物

期刊论文: "Natural Language Instructions for Human-Robot Collaborative Manipulation" (International Journal of Robotics Research)
会议论文: "Spatial references and perspective in natural language instructions for collaborative manipulation" (International Symposium on Robot and Human Interactive Communication Conference)
研讨会论文: "Perspective in Natural Language Instructions for Collaborative Manipulation" (Robotics: Science and Systems Workshop on Model Learning for Human-Robot Communication)

联系方式

联系人: Rosario Scalise, Shen Li
电子邮件:
- rscalise@andrew.cmu.edu
- shenli@cmu.edu

搜集汇总

数据集介绍

构建方式

Natural Language Instructions Corpus数据集的构建依托于在线众包平台，通过28个场景图像引导参与者生成自然语言指令。每个场景图像对应多个指令，最终收集了1582条独立的书面指令。这些指令涵盖了不同的操作难度和策略，旨在为自然语言处理、人机交互以及桌面机器人操作领域的研究提供丰富的语言素材和评估基准。

特点

该数据集的特点在于其多样性和实用性。它不仅包含了丰富的自然语言指令，还提供了与每个指令对应的场景图像，形成了图像/指令对。此外，数据集还记录了参与者的背景信息、指令生成时间、难度评分等元数据，为研究者提供了多维度的分析视角。这些特点使得该数据集成为评估系统性能和揭示桌面物体指定中固有挑战的理想工具。

使用方法

数据集以CSV和JSON格式提供，用户可以通过Python代码轻松访问和解析数据。主要数据集包含指令、场景图像索引、参与者信息等字段，而补充数据集则提供了指令评估的详细结果。研究者可以利用这些数据进行模型训练、系统评估或语言分析。此外，数据集还附带了详细的文档和图像资源，帮助用户更好地理解和使用数据。

背景与挑战

背景概述

Natural Language Instructions Corpus数据集由卡内基梅隆大学的研究团队于2016年创建，主要研究人员包括Rosario Scalise、Shen Li、Henny Admoni、Stephanie Rosenthal和Siddhartha S. Srinivasa。该数据集旨在为自然语言处理、人机交互以及桌面机器人操作领域提供丰富的语言指令资源。数据集包含1582条通过在线众筹平台收集的自然语言指令，每条指令均基于28个场景图像生成。这些指令不仅为特定领域的语言研究提供了宝贵语料，还为系统评估提供了图像与指令配对的基准，揭示了桌面物体指定任务中的固有挑战。该数据集在《国际机器人研究杂志》上发表，并广泛应用于相关领域的研究。

当前挑战

Natural Language Instructions Corpus数据集在解决桌面物体指定任务时面临多重挑战。首先，自然语言指令的多样性和复杂性使得机器人难以准确理解和执行任务，尤其是在多物体场景中，指令的模糊性和歧义性增加了任务难度。其次，数据集的构建过程中，研究人员需确保指令的多样性和代表性，同时避免众筹平台参与者因理解偏差或语言习惯差异导致的指令质量参差不齐。此外，如何将自然语言指令与机器人操作任务有效结合，并在实际应用中验证其有效性，也是该数据集面临的核心挑战。这些挑战不仅推动了自然语言处理与机器人操作技术的融合，也为未来研究提供了重要的参考方向。

常用场景

经典使用场景

Natural Language Instructions Corpus数据集在自然语言处理和人机交互领域具有广泛的应用。该数据集通过在线众包收集了1582条自然语言指令，涵盖了28个不同的场景图像。这些指令为研究者提供了一个丰富的语料库，用于训练和评估自然语言理解模型。特别是在机器人桌面操作任务中，该数据集能够帮助研究者理解人类如何通过语言指令来指定目标对象，从而优化机器人的理解和执行能力。

实际应用

在实际应用中，Natural Language Instructions Corpus数据集被广泛用于开发智能机器人系统。例如，在工业自动化领域，机器人需要根据人类的语言指令执行复杂的操作任务。通过使用该数据集，开发者能够训练机器人更好地理解和执行这些指令，从而提高生产效率和操作精度。此外，该数据集还被用于开发智能助手和虚拟现实应用，帮助用户通过自然语言与系统进行交互。

衍生相关工作

基于Natural Language Instructions Corpus数据集，研究者们开展了多项经典工作。例如，Scalise等人在《International Journal of Robotics Research》上发表的论文探讨了如何利用自然语言指令进行人机协作操作。此外，Li等人在多个国际会议和研讨会上发表了相关研究，进一步推动了该数据集在自然语言处理和机器人技术领域的应用。这些工作不仅验证了数据集的有效性，还为未来的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集