ROBOTOUILLE
收藏arXiv2025-02-06 更新2025-02-26 收录
下载链接:
https://github.com/portal-cornell/robotouille
下载链接
链接失效反馈官方服务:
资源简介:
ROBOTOUILLE是一个由康奈尔大学研究团队设计的烹饪模拟器,旨在测试LLM代理在处理长时间规划和异步任务方面的能力。该数据集包含同步和异步两个部分,每个部分有10个独特的任务,每个任务有10个通过程序生成的实例。数据集通过模拟烹饪过程中的时间延迟来创建复杂的规划挑战,要求代理能够管理重叠的任务和中断。该数据集的应用领域主要在于提高LLM代理在处理异步规划方面的性能。
ROBOTOUILLE is a cooking simulator designed by a research team from Cornell University, aimed at testing the capabilities of LLM agents in handling long-term planning and asynchronous tasks. This dataset comprises two parts: synchronous and asynchronous. Each part contains 10 unique tasks, and each task has 10 programmatically generated instances. By simulating time delays during the cooking process, the dataset creates complex planning challenges that require agents to manage overlapping tasks and interruptions. Its primary application is to enhance the performance of LLM agents in handling asynchronous planning.
提供机构:
康奈尔大学
创建时间:
2025-02-06
搜集汇总
数据集介绍

构建方式
ROBOTOUILLE数据集通过构建一个模拟烹饪各种食谱的环境来测试大型语言模型(LLM)代理的异步规划能力。该数据集使用时间延迟来模拟烹饪过程中需要考虑的时间因素,如烹饪汉堡肉或炖汤。数据集的构建基于马尔可夫决策过程(MDP)的框架,其中状态、动作、转换函数和奖励函数都经过精心设计,以模拟真实世界中的烹饪任务。此外,数据集还支持基于JSON的定制化,允许用户添加新的状态、动作和目标,从而简化了多样化长时任务的创建。
特点
ROBOTOUILLE数据集的特点在于其模拟环境的高度复杂性和多样性。数据集涵盖了同步和异步两种规划场景,并提供了多代理环境,这些环境可以是回合制或实时执行。数据集包含10个独特的任务,每个任务都有10个程序生成的实例,这些任务的设计旨在测试LLM代理在处理时间延迟、多样化长时任务和多代理协作方面的能力。此外,数据集还提供了三种基线方法,用于评估同步和异步数据集,并为未来的工作提供了分析失败模式的方法。
使用方法
使用ROBOTOUILLE数据集的方法包括以下步骤:首先,用户需要理解数据集的结构和设计,特别是MDP的各个组成部分。然后,用户可以选择合适的LLM代理进行评估,并使用数据集中的基线方法进行基准测试。在评估过程中,用户需要关注代理的成功率和最优性,以及失败模式的分析。最后,用户可以根据评估结果来改进LLM代理的性能,例如通过增强反馈整合、自我验证和现实世界应用等方面的研究。
背景与挑战
背景概述
ROBOTOUILLE数据集的创建是为了解决当前大型语言模型(LLM)代理在处理异步规划任务时的能力不足问题。随着LLM代理在短期单代理环境中展现出的令人印象深刻的推理和任务规划能力,现实世界的决策制定引入了更为复杂的挑战。为了应对这些挑战,一个代理必须具备异步规划的能力,即能够有效地推理和规划并行或顺序发生的状态和动作。ROBOTOUILLE数据集的创建旨在通过时间延迟等任务来压力测试LLM代理,以评估其在处理异步规划方面的能力。该数据集由Cornell大学的研究人员Gonzalo Gonzalez-Pumariega、Leong Su Yean、Neha Sunkara和Sanjiban Choudhury于2025年提出,并提供了三个数据集来测试LLM代理在同步、异步和多代理设置下的规划能力。该数据集的设计旨在捕捉越来越复杂的规划挑战,要求代理能够管理重叠的任务和中断,并对相关领域产生了重要影响。
当前挑战
ROBOTOUILLE数据集面临的主要挑战包括:1)异步规划任务的挑战,即代理需要能够有效地推理和规划并行或顺序发生的状态和动作,以应对现实世界中的时间延迟、多样化长期任务和多代理协作等问题;2)构建过程中所遇到的挑战,如需要开发一个能够支持时间延迟、多代理协作和多样化长期任务的环境,以及需要设计一种灵活的目标规范系统,以捕捉可能满足模糊语言目标的各种状态。此外,LLM代理在处理异步规划任务时,需要更好地融入长期反馈,并在任务执行期间自我审计其推理,以提高其性能和鲁棒性。
常用场景
经典使用场景
ROBOTOUILLE数据集主要用于评估和训练大型语言模型(LLM)代理的异步规划能力。该数据集通过模拟烹饪不同食谱的场景,为代理提供了处理时间延迟、多样化的长期任务和多代理协调的挑战。经典的使用场景包括:1) 模拟烹饪过程,如煎肉、煮汤等,要求代理合理安排任务顺序,以实现高效的烹饪流程;2) 设计多样化、长期的任务,要求代理在多个目标之间进行权衡和规划,例如同时制作多个食谱;3) 实现多代理执行环境,要求代理与其他代理协调,分配任务并协作完成任务。
解决学术问题
ROBOTOUILLE数据集解决了LLM代理在处理异步规划任务时面临的挑战。该数据集提供了异步规划能力的基准测试环境,有助于研究人员了解LLM代理在处理时间延迟、多样化长期任务和多代理协调方面的局限性。同时,ROBOTOUILLE数据集也为LLM代理的训练提供了丰富的数据,有助于提高其异步规划能力。
衍生相关工作
ROBOTOUILLE数据集的提出和发展,推动了LLM代理异步规划能力的研究。相关研究包括:1) 提出基于语言模型的多代理协作方法,如使用ROBOTOUILLE数据集训练LLM代理,使其能够与其他代理协同完成任务;2) 开发新的评估指标和基准测试环境,以评估LLM代理在异步规划任务上的性能;3) 研究LLM代理的失败模式和改进方法,以提高其异步规划能力。
以上内容由遇见数据集搜集并总结生成



