Auto-SLURP
收藏arXiv2025-04-25 更新2025-04-29 收录
下载链接:
https://github.com/lorashen/Auto-SLURP/
下载链接
链接失效反馈官方服务:
资源简介:
Auto-SLURP是一个用于评估基于大型语言模型(LLMs)的多智能体框架的数据集,旨在测试智能个人助手的性能。该数据集基于原始的SLURP数据集,通过重新标记数据并整合模拟服务器和外部服务进行了扩展。它涵盖了语言理解、任务执行和响应生成等方面的评估,并且包含了一系列任务领域,如日历管理、媒体播放、交通调度和信息检索等。Auto-SLURP旨在解决当前缺乏专门用于评估多智能体框架性能的基准数据集的问题,为研究者提供了全面和灵活的评估平台。
Auto-SLURP is a dataset for evaluating large language model (LLM)-based multi-agent frameworks, specifically designed to test the performance of intelligent personal assistants. It is extended from the original SLURP dataset through data relabeling and the integration of simulated servers and external services. The dataset covers evaluations across language understanding, task execution and response generation, and includes a series of task domains such as calendar management, media playback, traffic scheduling and information retrieval. Auto-SLURP aims to fill the current gap in benchmark datasets dedicated to evaluating the performance of multi-agent frameworks, providing researchers with a comprehensive and flexible evaluation platform.
提供机构:
GEB Tech
创建时间:
2025-04-25
搜集汇总
数据集介绍

构建方式
Auto-SLURP数据集基于SLURP数据集进行扩展和重构,旨在评估基于大型语言模型(LLM)的多智能体框架在智能个人助理场景中的性能。通过对原始SLURP数据集中的用户查询和意图进行保留,并重新标注槽位信息,使其能够捕捉执行任务所需的所有关键信息。此外,数据集还集成了模拟服务器和外部服务,以支持端到端的评估流程,涵盖语言理解、任务执行和响应生成。
特点
Auto-SLURP数据集的特点在于其多样性和复杂性。它覆盖了日历管理、媒体播放、交通调度和信息检索等多个任务领域,能够全面评估多智能体框架的灵活性和可靠性。数据集通过模拟真实交互场景,包括API访问和状态管理,进一步提升了评估的真实性和挑战性。实验结果表明,即使是当前最先进的多智能体框架,在该数据集上也面临显著挑战。
使用方法
使用Auto-SLURP数据集时,研究人员可以通过构建模拟智能个人助理的工作流来评估多智能体框架的性能。典型的工作流包括程序管理代理、意图代理、时间代理、位置代理、URL代理和请求代理等模块。评估指标主要关注端到端的任务执行成功率,确保框架能够正确理解用户指令并协调后端服务完成任务。数据集还提供了自动化评估工具,确保不同框架之间的性能比较具有一致性和可重复性。
背景与挑战
背景概述
Auto-SLURP数据集由Lei Shen和Xiaoyu Shen等研究人员于2025年提出,旨在填补多智能体框架评估领域的空白。该数据集基于SLURP数据集扩展而来,专注于智能个人助手的多智能体系统评估。随着大语言模型(LLMs)驱动的多智能体框架快速发展,缺乏针对其性能的标准化评估基准成为制约领域发展的关键瓶颈。Auto-SLURP通过重构原始数据的意图-槽位标注,集成模拟服务器和外部服务,建立了覆盖语言理解、任务执行和响应生成的端到端评估体系。该数据集包含日历管理、媒体播放等多样化任务场景,为评估多智能体框架在真实环境中的协调能力和执行可靠性提供了重要基准。
当前挑战
Auto-SLURP面临的挑战主要体现在两个方面:领域问题层面,智能个人助手需要处理自然语言理解、决策制定、工具使用等多维度复杂任务,现有框架在意图识别准确率(最低仅21%)和跨模块协调(如URL代理43%错误率)方面表现欠佳;数据构建层面,需解决原始SLURP数据集槽位信息不完整的问题,通过重新标注确保任务可执行性,同时设计模拟服务器与真实API的混合架构以平衡评估效度与可复现性。实验表明,即使最优框架(AgentLite)也仅达到46%执行成功率,暴露出多智能体系统在动态环境适应性和错误传播控制方面的固有难题。
常用场景
经典使用场景
Auto-SLURP数据集作为智能个人助手的多智能体框架评估基准,其经典使用场景主要集中在模拟真实世界中的复杂任务执行流程。该数据集通过整合模拟服务器和外部服务,构建了一个端到端的评估管道,涵盖了从语言理解、意图识别到任务执行和响应生成的全过程。研究人员可以利用这一数据集,测试多智能体框架在日历管理、媒体播放、交通调度和信息检索等多样化任务中的表现,从而全面评估框架的协调能力和执行效率。
解决学术问题
Auto-SLURP填补了当前多智能体框架评估领域的空白,解决了缺乏标准化基准数据集的学术难题。传统评估方法往往局限于单一语言模型或狭窄的功能切片,难以反映真实场景中的复杂性和交互性。该数据集通过重新标注SLURP数据并引入模拟服务,为研究者提供了评估框架在语言理解、任务协调和工具使用等方面的综合能力,从而推动了多智能体系统在可靠性和智能性上的进步。
衍生相关工作
Auto-SLURP的推出催生了一系列围绕多智能体框架优化的研究工作。例如,基于该数据集的实验揭示了意图识别模块对整体性能的关键影响,促使研究者开发了针对性的微调方法(如Llama 3模型的领域适配)。此外,数据集的设计理念也启发了后续基准如AgentVerse和AutoAgents在协调策略、提示工程等方向的改进,推动了多智能体系统在模块化架构和动态交互方面的创新。
以上内容由遇见数据集搜集并总结生成



