five

microsoft/Taskbench

收藏
Hugging Face2024-08-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/Taskbench
下载链接
链接失效反馈
官方服务:
资源简介:
TaskBench是一个用于评估大型语言模型(LLMs)在任务自动化方面性能的基准数据集。任务自动化可以分解为三个关键阶段:任务分解、工具调用和参数预测。为了应对这一挑战,我们提出了一个全面的评估框架和一个高质量的任务自动化数据集。数据集包含三个领域的样本:HuggingFace工具、多媒体工具和日常生活API。数据集的构建过程包括工具图构建、图采样和反向指令生成,并通过LLM和规则基础的批评以及人工验证来确保数据质量。最终数据集包含28,271个样本,涵盖了三个领域:HuggingFace工具、多媒体工具和日常生活API。

TaskBench是一个用于评估大型语言模型(LLMs)在任务自动化方面性能的基准数据集。任务自动化可以分解为三个关键阶段:任务分解、工具调用和参数预测。为了应对这一挑战,我们提出了一个全面的评估框架和一个高质量的任务自动化数据集。数据集包含三个领域的样本:HuggingFace工具、多媒体工具和日常生活API。数据集的构建过程包括工具图构建、图采样和反向指令生成,并通过LLM和规则基础的批评以及人工验证来确保数据质量。最终数据集包含28,271个样本,涵盖了三个领域:HuggingFace工具、多媒体工具和日常生活API。
提供机构:
microsoft
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: MIT
  • 标签: agent, tool-learning, task-automation, LLM
  • 别名: TaskBench
  • 大小分类: n<21k

配置详情

  • HuggingFace 配置:
    • 测试集路径: data_huggingface/data.parquet
  • 多媒体配置:
    • 测试集路径: data_multimedia/data.parquet
  • 日常生活API配置:
    • 测试集路径: data_dailylifeapis/data.parquet

数据集描述

TaskBench 是一个用于评估大型语言模型(LLMs)在任务自动化方面的基准。任务自动化可以分为三个关键阶段:任务分解、工具调用和参数预测。数据收集过程包括以下三个阶段:

  1. 工具图构建: 构建工具库并使用工具库构建工具图。工具图中的节点代表工具,边代表工具之间的依赖关系,包括资源依赖和时间依赖。
  2. 图采样: 从工具图中采样生成每个样本的工具图。根据采样工具图的拓扑结构,采样方式包括节点、链和DAGs,代表任务自动化的不同任务分解结构。
  3. 反向指令: 使用采样的工具图生成任务步骤和指令,然后使用指令生成工具调用参数以完成工具调用图。

数据集质量保证

  • LLM-based Critic: 使用LLM检查生成数据与采样工具图的对齐情况。
  • Rule-based Critic: 使用简单规则确定创建数据中的工具图与采样工具图的对齐情况。
  • 人工验证: 包括检查指令的语法、工具调用图的正确性和工具调用参数的正确性。

数据集结构

每个数据集目录包含以下文件:

  • data.json: 数据集文件,包含样本。
  • graph_desc.json: 工具图描述文件,包含数据集的工具图。
  • user_requests.json: 包含数据集的用户请求。
  • tool_desc.json: 工具描述文件,包含数据集的工具描述。

处理统计

  • 概览: 提供每个数据集的样本数量、由批评者检查的样本数量和由人工验证的样本数量。按工具调用图结构分组,提供每个组的样本数量。
  • LLM-based 和 Rule-based Critics: 提供由LLM-based批评者、Rule-based批评者和两者都检查的样本数量。
  • 人工验证: 提供每个部分(语法检查、指令检查和工具调用图检查)的样本数量,以及被丢弃或修正的样本数量。

提示生成

  • 反向指令: 根据采样的工具图生成任务步骤和指令。
  • LLM-based Critic: 检查任务步骤、用户请求和工具调用图的正确性。

评估框架

TaskBench 提供了一个全面的任务自动化评估框架,包括任务分解、工具调用和参数预测三个阶段。每个阶段的评估指标如下:

  • 任务分解: 使用 Rouge-1 (R1)、Rouge-2 (R2) 和 Bertscore F1 (BsF) 指标。
  • 工具调用: 报告节点预测 (n-F1) 和边预测 (e-F1) 的 F1 值。
  • 参数预测: 报告参数类型 (或名称) F1 (t-F1) 和参数值 F1 (v-F1)。

数据集生成

如果需要生成自己的数据集,可以按照以下步骤操作:

  1. 构建自己的工具图: 构建工具库并使用工具库生成工具图。
  2. 生成数据集: 使用生成的工具图和工具描述文件生成数据集。

排行榜

基于评估框架和 TaskBench 数据集,提供了一个包含17个LLMs的任务自动化性能排行榜。每个LLM的评估结果包括多媒体工具域和HuggingFace工具域的性能指标。

搜集汇总
数据集介绍
main_image_url
构建方式
在任务自动化领域,高质量数据集的构建面临任务分解、工具调用与参数预测等多重挑战。TaskBench数据集采用创新的工具图概念与逆向指令方法,其构建过程分为三个阶段:首先构建工具库并生成表示工具依赖关系的工具图;随后通过节点、链与有向无环图三种拓扑结构对工具图进行采样,以模拟不同复杂度的任务分解;最后运用逆向指令技术,依据采样的工具图生成任务步骤与用户指令,并进一步补全工具调用参数。为确保数据质量,该过程融合了基于大语言模型与规则的双重校验机制,并辅以人工标注对指令语法、工具调用图及参数的正确性进行最终验证,从而在HuggingFace工具、多媒体工具与日常生活API三个领域形成了共计28,271条样本的高可靠性数据集。
使用方法
为利用TaskBench数据集评估大型语言模型的任务自动化性能,研究者需遵循其提供的标准化评估框架。该框架将评估流程明确划分为任务分解、工具调用与参数预测三个阶段,并分别对应Rouge、BertScore以及节点与边预测F1值等多维度量化指标。使用前,需通过配置Python环境并部署兼容OpenAI API的本地大语言模型服务以搭建评估基础。评估时,通过指定模型名称、数据目录等参数运行推理脚本,生成模型在测试集上的预测结果;随后调用评估脚本,系统将自动计算各阶段指标并生成详细评估报告。此外,数据集支持用户根据自定义工具库生成新的工具图与评测数据,为特定领域的任务自动化研究提供了灵活的扩展能力。
背景与挑战
背景概述
随着大型语言模型在任务自动化领域的应用日益广泛,微软研究院于2023年推出了TaskBench基准数据集,旨在系统评估模型在复杂任务分解、工具调用及参数预测方面的能力。该数据集聚焦于解决任务自动化中的核心研究问题,即如何将用户意图转化为可执行的工具调用序列,并准确预测相关参数。通过引入工具图概念及反向指令生成方法,TaskBench构建了涵盖HuggingFace工具、多媒体工具及日常生活API三大领域的高质量样本,为推进智能体与工具学习研究提供了重要数据基础。
当前挑战
TaskBench所针对的任务自动化领域面临多重挑战:首先,任务分解需准确理解用户意图并将其映射为结构化工具图,涉及复杂的依赖关系建模;其次,工具调用要求模型精准选择节点并预测边缘连接,以保障执行流程的逻辑连贯性;再者,参数预测需处理多样化的输入输出类型,确保与工具定义的严格对齐。在数据集构建过程中,挑战主要体现在生成数据与工具图的对齐验证上,尽管采用了基于大型语言模型与规则的双重批评机制,仍需通过人工标注进一步修正语法错误、指令一致性及工具调用图的准确性,以维持数据的高可靠性。
常用场景
经典使用场景
在大型语言模型(LLM)驱动的任务自动化领域,TaskBench数据集作为一项权威基准,其经典使用场景集中于评估模型在复杂任务分解、工具调用及参数预测方面的综合能力。该数据集通过精心构建的工具图结构,模拟了从用户意图到多步骤执行的完整流程,为研究者提供了标准化的测试环境,以衡量不同模型在跨领域任务中的自动化表现。
解决学术问题
TaskBench有效解决了任务自动化研究中数据稀缺与评估标准不统一的学术难题。通过引入工具图与反向指令生成方法,该数据集提供了高质量、结构化的评估样本,使得研究者能够系统分析模型在任务分解逻辑、工具依赖关系建模等方面的性能瓶颈。其意义在于推动了任务自动化从理论探索向可量化、可复现的实证研究转变,为后续研究奠定了坚实的基准基础。
实际应用
在实际应用层面,TaskBench数据集为开发基于LLM的智能助手与自动化工作流提供了关键验证工具。例如,在多媒体处理、日常API集成等场景中,开发者可利用该数据集测试模型调用外部工具、组合复杂操作的可靠性,从而优化实际系统的规划与执行模块,提升智能体在真实环境中的实用性与鲁棒性。
数据集最近研究
最新研究方向
在任务自动化领域,TaskBench数据集正推动大型语言模型在复杂任务分解与工具调用方面的前沿探索。当前研究聚焦于提升模型对多步骤任务的规划能力,特别是在工具图结构下的资源依赖与时间依赖建模。随着智能体技术的兴起,该数据集为评估模型在真实场景中的工具学习与参数预测性能提供了标准化基准。相关热点事件包括开源社区对多模态工具链的集成尝试,以及业界对自动化工作流效率的持续优化。这些进展不仅深化了语言模型与外部工具的协同机制理解,也为构建更可靠、可扩展的人工智能系统奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作