five

Asper-Bench

收藏
arXiv2025-07-21 更新2025-07-23 收录
下载链接:
https://github.com/apple/ml-aspera
下载链接
链接失效反馈
官方服务:
资源简介:
Asper-Bench是一个由250个具有挑战性的任务组成的评估数据集,使用ASPERA框架生成。这些任务包括复杂的用户查询、模拟状态和相应的验证程序,用于评估大型语言模型(LLMs)在执行复杂动作方面的能力。该数据集旨在解决现有数据集在数据可用性和评估稳健性方面的挑战,并为评估LLMs生成满足复杂动作请求的程序的能力提供基准。
提供机构:
剑桥大学工程系, 苹果公司, Meta
创建时间:
2025-07-21
搜集汇总
数据集介绍
main_image_url
构建方式
Asper-Bench数据集的构建依托于ASPERA框架,该框架结合了人类开发者与大型语言模型(LLM)的交互式协作。开发者首先定义了一个模拟数字助理功能的Python库,包含69个细粒度原语(如事件调度、时间计算等)。随后通过多轮人机对话,LLM在文档和示例指导下生成复杂用户查询(如“下周三为团队安排午餐会议”)、对应的动作执行程序(AEP)、状态初始化程序(SIP)及验证程序(EP)。开发者在集成开发环境中实时验证生成内容,确保250个任务的多样性与质量,最终形成包含9k-17.5k行代码注释的基准数据集。
使用方法
使用Asper-Bench需配置两种评估模式:完全代码库知识(CCK)模式下,模型接收完整库文档和5个示例;原语选择(PS)模式下需先检索相关原语再生成程序。评估时执行生成程序并运行配套EP验证,通过断言检查数据库状态变化(如会议是否正确取消)或返回值(如空闲时间计算)。开发者可扩展库模块或调整焦点指令(如“生成需要跨部门协调的查询”)来适配新领域,其交互式生成机制支持持续扩充高质量任务。
背景与挑战
背景概述
Asper-Bench数据集由剑桥大学和苹果公司的研究团队于2025年7月发布,旨在评估大型语言模型(LLMs)在复杂动作执行规划方面的能力。该数据集基于ASPERA框架构建,包含250个具有挑战性的任务,涉及数字助理在多步骤目标下的组合编程能力。核心研究问题聚焦于LLMs如何利用预训练编程知识,将用户查询转化为可执行的复杂动作程序。该数据集通过模拟公司日历管理场景,为数字助理的复杂任务执行能力评估提供了标准化测试平台,对自然语言处理和人机交互领域产生了重要影响。
当前挑战
Asper-Bench面临的主要挑战体现在两个方面:领域问题方面,需要解决数字助理在组合使用多工具、处理复杂时间表达式和逻辑推理时的程序生成难题;构建过程方面,需克服高质量任务样本稀缺、环境状态动态模拟以及功能正确性验证等挑战。具体包括:1)处理涉及流程控制和迭代的复合任务时LLMs表现欠佳;2)在需要选择相关工具库原语的场景中模型召回率较低;3)确保生成程序的多样性和真实性同时避免LLMs固有偏见;4)开发自动化评估方法以准确衡量任务完成度,避免依赖人工判断。
常用场景
经典使用场景
Asper-Bench数据集在评估大型语言模型(LLMs)执行复杂动作的能力方面具有经典应用场景。该数据集通过模拟数字助理环境,要求模型将复杂的自然语言查询转化为可执行的程序,涉及多步骤目标、对象组合和函数调用。这种场景特别适用于测试模型在自定义助理库文档下的程序生成能力,以及其对时间表达式、逻辑推理和流程控制的理解。
解决学术问题
Asper-Bench解决了数字助理领域中的两个关键学术问题:复杂动作执行数据的稀缺性以及评估鲁棒性的挑战。通过提供250个多样化且高质量的任务,该数据集填补了现有资源在组合查询和可执行程序验证方面的空白。其创新的ASPERA框架允许开发者与LLM交互生成环境状态初始化程序和功能正确性验证代码,为复杂动作执行的评估设立了新标准。
实际应用
在实际应用中,Asper-Bench为开发智能数字助理系统(如Siri、Alexa等)提供了重要基准。企业可利用该数据集测试其模型在真实场景下的表现,例如处理包含时间推理的会议安排、多条件约束的任务分解等复杂查询。其动态数据库生成和交互式错误处理机制特别适合评估商业级助理系统在应对用户模糊请求时的鲁棒性。
数据集最近研究
最新研究方向
Asper-Bench数据集作为评估复杂动作执行能力的新型基准,近期研究聚焦于大语言模型(LLMs)在数字助理场景下的程序合成能力。该数据集通过ASPERA框架生成的250个多步骤任务,揭示了LLMs在组合自定义助理库原语、处理时序逻辑和控制流方面的显著挑战。前沿探索主要围绕三个方向:1)在完整库知识(CCK)设定下,即使提供全部文档,顶级模型如GPT-4o任务完成率仅45.33%,表明细粒度依赖推理仍是瓶颈;2)原语选择(PS)场景中模型检索相关原语的召回率仅67%,暴露了开放域工具发现的局限性;3)错误分析显示高级模型产生的任务完成错误占比62.23%,反映了语义理解与执行间的鸿沟。该数据集通过动态环境模拟和人类-LLM协作的验证程序生成,为构建可执行复杂指令的下一代对话系统提供了关键评估工具。
相关研究论文
  • 1
    ASPERA: A Simulated Environment to Evaluate Planning for Complex Action Execution剑桥大学工程系, 苹果公司, Meta · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作