five

Minecraft Builder Dialog Agent Task

收藏
arXiv2024-07-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.12734v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Minecraft Builder Dialog Agent Task,由伦敦玛丽女王大学创建,旨在评估大型语言模型在空间导向任务中的能力。数据集包含一系列不同的建造操作任务,通过模拟环境测试代理的空间推理和向量数学能力。创建过程中,采用了规则驱动的方法生成建筑师指令,以测试代理在不同场景下的表现。此数据集主要应用于AI领域,特别是对话系统和虚拟环境中的任务执行。
提供机构:
伦敦玛丽女王大学
创建时间:
2024-07-18
搜集汇总
数据集介绍
main_image_url
构建方式
本研究以MinecraftBuilder Dialog Agent Task为蓝本,构建了一个适用于评估大型语言模型在空间定位任务中能力的合成基准数据集。该数据集通过模拟建筑师与建造者之间的对话,要求建造者在三维空间中根据文本指令执行建造操作,涵盖了常见的建造操作任务。数据集的构建采用了规则驱动的方法,生成了一系列基于常见指令模式的建筑师指令,以测试代理在不同构建场景下的表现。
特点
该数据集的特点在于,它提供了一个综合的合成基准,包含了一系列独立的任务,这些任务由常见的建造操作组成。这允许研究深入探查不同代理的特定优势和弱点,并在空间推理和向量数学这一具有挑战性的领域中测试大型语言模型的能力。数据集还考虑了空间定位、向量数学计算以及消除歧义等方面的要求。
使用方法
使用该数据集时,研究者可以采用零样本、少量样本和思维链提示等方法来评估模型的表现。数据集的设计使得研究者能够识别代理在空间推理方面的弱点,并探索解决这些问题的方法。通过对比不同提示策略的结果,研究者可以更好地理解模型在执行空间建造任务时的行为模式。
背景与挑战
背景概述
Minecraft Builder Dialog Agent Task数据集是在人工智能领域中对大型语言模型(LLM)进行空间推理和向量数学能力评估的背景下创建的。该数据集由Chris Madge和Massimo Poesio于Queen Mary University of London提出,旨在将Minecraft建筑任务转化为一个适合评估LLM在空间定位任务中的能力的基准。此数据集的研究背景源于对虚拟世界环境中能够执行任务的对话代理的研究兴趣,特别是在游戏环境中。Minecraft Builder Dialog Agent Task数据集的构建,不仅为评估LLM在非文本任务中的表现提供了一个有趣的基准,同时也为构建代理的设计者提供了关于其方法优缺点的具体信息。
当前挑战
该数据集面临的挑战主要涉及两个方面:一是空间推理和向量数学问题解决的挑战,二是构建过程中的挑战。在空间推理方面,LLM在处理需要3D建设和空间定位的任务时表现出一定的困难。在构建过程中,数据集的构建者尝试提供一系列综合性的合成基准,以测试代理在不同任务中的表现。这些任务包括绝对定位、相对定位和构建基本形状等,每一种任务都要求LLM具备不同的能力。此外,数据集构建者在验证基准的有效性时,也面临着如何准确模拟建筑师指示和 builder 代理执行的挑战。
常用场景
经典使用场景
Minecraft Builder Dialog Agent Task数据集,专为评估大型语言模型在空间定位任务中的性能而设计。该数据集的核心应用场景在于模拟建筑工人在虚拟世界Minecraft中根据建筑师文本指令进行建造的过程,这对于研究任务导向对话代理在游戏环境中的表现提供了理想的沙盒。
衍生相关工作
基于Minecraft Builder Dialog Agent Task数据集,衍生出了一系列相关研究工作。这些研究进一步探讨了如何在虚拟环境中通过文本指令进行有效的任务执行和空间推理,推动了大型语言模型在空间定位和结构理解方面的应用发展。
数据集最近研究
最新研究方向
Minecraft Builder Dialog Agent Task数据集近期成为研究焦点,其旨在通过模拟Minecraft建筑任务,评估大型语言模型在空间定位任务中的性能,并指导建筑代理的设计。该数据集的独特之处在于其对空间推理和三维向量数学的要求,这在现有的大规模语言模型基准测试中较为罕见。近期研究不仅探索了大型语言模型在空间推理任务中的表现,还通过不同的提示策略揭示了模型的弱点,如坐标轴计算遗漏或坐标系统理解错误。这些发现为模型改进提供了方向,并有望推动虚拟世界环境中的对话型智能体研究向前发展。
相关研究论文
  • 1
    A LLM Benchmark based on the Minecraft Builder Dialog Agent Task伦敦玛丽女王大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作