BLOCKWORLD-REPAIRS

Name: BLOCKWORLD-REPAIRS
Creator: 赫瑞瓦特大学
Published: 2024-09-22 05:06:25
License: 暂无描述

arXiv2024-09-22 更新2024-09-26 收录

下载链接：

http://arxiv.org/abs/2409.14247v1

下载链接

链接失效反馈

官方服务：

资源简介：

BLOCKWORLD-REPAIRS数据集由赫瑞瓦特大学创建，专注于多模态对话中的第三位置修复（TPR）序列，旨在解决指令跟随任务中的指代模糊问题。数据集包含795个对话，涉及795个初始指令、629个源块TPR和635个最终目标位置TPR，总计2059条数据。数据集通过Amazon Mechanical Turk收集，模拟了机器人与人类在虚拟世界中的协作任务。该数据集主要用于评估视觉和语言模型在处理和响应TPR序列方面的能力，特别是在人机协作场景中，旨在提高模型的鲁棒性和准确性。

The BLOCKWORLD-REPAIRS dataset was developed by Heriot-Watt University, focusing on third-position repair (TPR) sequences in multimodal dialogues to address referential ambiguity in instruction-following tasks. The dataset includes 795 dialogues, involving 795 initial instructions, 629 source-block TPRs and 635 final target-position TPRs, totaling 2059 data samples. Collected via Amazon Mechanical Turk, it simulates collaborative tasks between robots and humans in a virtual world. This dataset is primarily used to evaluate the capabilities of vision-language models in processing and responding to TPR sequences, especially in human-robot collaboration scenarios, with the aim of improving the robustness and accuracy of these models.

提供机构：

赫瑞瓦特大学

创建时间：

2024-09-22

搜集汇总

数据集介绍

构建方式

BLOCKWORLD-REPAIRS数据集通过在Amazon Mechanical Turk上构建对话接口来收集数据。参与者与一个容易出错的机器人代理进行对话，指导其在虚拟世界中移动方块。机器人代理通过指向方块或位置来验证其行动，参与者则通过复杂的、上下文相关的第三位置修复（TPR）来纠正误解。数据收集过程中，机器人正确执行行动的频率为70%，并在修复后选择正确的方块或位置。最终收集到的数据包括795个初始指令、629个源方块TPR和635个最终目标位置TPR，总计2059个条目。

特点

BLOCKWORLD-REPAIRS数据集的主要特点在于其高度模糊的指令跟随任务中包含的多模态第三位置修复序列。该数据集设计用于评估视觉和语言模型（VLM）在处理和准确响应TPR序列方面的能力，从而从误解中恢复。数据集中的对话涉及复杂的视觉和空间描述，旨在模拟真实世界中的协作任务，其中修复是常见的互动过程。

使用方法

BLOCKWORLD-REPAIRS数据集可用于评估和改进视觉和语言模型在处理多模态对话中的修复序列的能力。研究者可以通过该数据集进行模型训练和测试，特别是在涉及视觉对话和机器人协作任务的场景中。数据集提供了详细的对话记录和修复序列，支持模型在不同情境下的表现评估，并可通过特定的损失函数优化模型，以提高其在处理TPR时的表现和泛化能力。

背景与挑战

背景概述

BLOCKWORLD-REPAIRS数据集由Heriot-Watt大学的研究人员Javier Chiyah-Garcia、Alessandro Suglia、Arash Eshghi等人于2024年创建，旨在解决多模态语言模型在处理用户修正时的挑战。该数据集专注于指令跟随操作任务中的多模态第三位置修正（TPR）序列，这些任务设计时充满了指称歧义。通过收集、分析并公开发布该数据集，研究人员评估了多个最先进的视觉和语言模型（VLM）在处理和准确响应TPR序列方面的能力，揭示了现有模型在这一任务中的显著不足。

当前挑战

BLOCKWORLD-REPAIRS数据集面临的挑战主要集中在两个方面：一是解决领域问题中的指称歧义，这要求模型能够准确理解和响应用户的修正指令；二是在构建过程中，如何有效地收集和处理多模态数据，确保数据的质量和一致性。此外，模型在处理TPR序列时表现出的性能远低于人类，这表明现有模型在多模态协作环境中处理修正的能力仍有待提升。

常用场景

经典使用场景

BLOCKWORLD-REPAIRS数据集的经典使用场景在于评估多模态语言模型在处理用户修正指令时的能力。该数据集通过模拟一个充满指代歧义的指令跟随操作任务，收集了大量的多模态第三位置修正（TPR）序列。研究者利用此数据集评估当前最先进的视觉与语言模型（VLM）在处理和准确响应TPR序列方面的能力，从而恢复因误解而导致的沟通失误。

实际应用

BLOCKWORLD-REPAIRS数据集的实际应用场景主要体现在人机协作任务中。例如，在机器人操作任务中，机器人需要根据用户的指令移动物体。当机器人误解指令时，用户可以通过修正指令来纠正机器人的行为。该数据集通过模拟这种场景，帮助开发能够有效处理用户修正指令的机器人系统，从而提高人机协作的效率和准确性。

衍生相关工作

BLOCKWORLD-REPAIRS数据集的发布催生了一系列相关研究工作。例如，研究者利用该数据集评估了不同视觉与语言模型在处理TPR序列时的表现，并提出了通过专门设计的损失函数来提升模型性能的方法。此外，该数据集还启发了在多模态协作设置中设计新的训练机制和目标函数的研究，以促进模型从交互中学习的能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集