ACEBench
收藏github2025-02-26 更新2025-03-05 收录
下载链接:
https://github.com/ACEBench/ACEBench
下载链接
链接失效反馈官方服务:
资源简介:
ACEBench是一个全面的基准数据集,用于评估大型语言模型在工具使用方面的性能。它将数据分为三种主要类型:正常、特殊和代理,以不同的评估方法对工具使用进行评估。
ACEBench is a comprehensive benchmark dataset designed to evaluate the performance of Large Language Models (LLMs) in tool use. It divides the dataset into three main categories: normal, special, and agent, and adopts diverse evaluation methods to assess tool use performance.
创建时间:
2025-02-26
原始信息汇总
ACEBench 数据集概述
1. 数据集简介
- 名称: ACEBench
- 目的: 评估大语言模型(LLMs)的工具使用能力
- 特点:
- 解决现有基准测试的局限性
- 提供多维度评估
- 避免依赖真实API执行带来的开销
2. 数据类型
- Normal: 基础工具使用场景
- Special: 处理模糊或不完整指令的场景
- Agent: 多智能体交互模拟真实多轮对话
3. 数据统计
- API覆盖:
- 8个主要领域
- 68个子领域
- 4,538个中英文API
- 领域分布: 技术、金融、娱乐、社会、健康、文化、环境等
4. 数据组成
- 包含三种主要测试样本类型:
- Normal
- Agent
- Special
5. 模型性能排行榜
- 闭源模型:
- 表现最佳: gpt-4o-2024-11-20 (整体得分0.896)
- 其他高分模型: gpt-4-turbo-2024-04-09, qwen-max
- 开源模型:
- 表现最佳: Qwen2.5-Coder-32B-Instruct-local (整体得分0.853)
- 其他高分模型: Qwen2.5-32B-Instruct-local, Qwen2.5-72B-Instruct-local
6. 数据存储结构
data_all/
├── possible_answer_en/
│ ├── data_{normal}.json
│ ├── data_{special}.json
│ ├── data_{agent}.json
├── possible_answer_zh/
│ ├── data_{normal}.json
│ ├── data_{special}.json
│ ├── data_{agent}.json
...
7. 使用方式
- 推理:
- 使用
generate.py脚本 - 支持不同模型、类别和语言
- 使用
- 评估:
- 使用
eval_main.py脚本 - 支持多种评估指标
- 使用
8. 引用
bibtex @article{chen2025acebench, title={ACEBench: Who Wins the Match Point in Tool Learning?}, author={Chen, Chen and Hao, Xinlong and Liu, Weiwen and Huang, Xu and Zeng, Xingshan and Yu, Shuai and Li, Dexun and Wang, Shuai and Gan, Weinan and Huang, Yuefeng and others}, journal={arXiv preprint arXiv:2501.12851}, year={2025} }
搜集汇总
数据集介绍

构建方式
ACEBench数据集的构建基于对大型语言模型在决策制定和推理中工具使用的评估需求,分为正常、特殊和代理三大类别,涵盖8大领域和68个子领域的共4538个API。数据集包含了基本工具使用场景、多轮用户与环境交互的复杂场景以及需要处理不可行工具调用的复杂场景,以JSON格式存储在对应的目录下。
特点
该数据集的特点在于:评估场景全面,涵盖了真实多轮对话环境;评估维度丰富,细致考察了LLM使用工具的方式;评估方法多样,不依赖LLM或真实API执行,降低了评估开销。此外,ACEBench提供了开放源代码模型和闭源模型的基准测试结果,便于研究者对比分析。
使用方法
使用ACEBench数据集,首先需要安装必要的依赖,通过pip安装requirements.txt文件中的包。数据集使用JSON文件存储,可根据需要选择不同的模型、任务类别和语言进行推理和评估。推理时,利用提供的generate.py脚本,指定模型名称、路径、任务类别和语言即可进行。评估模型性能时,使用eval_main.py脚本,支持多种评估指标,适用于开源和闭源模型。
背景与挑战
背景概述
ACEBench数据集是一项针对大型语言模型(LLMs)工具使用能力的全面评估基准。该数据集由Chen等人于2025年创建,旨在解决现有评估LLMs工具使用能力的基准所面临的局限性,如评估场景有限、评估维度狭窄以及依赖LLMs或真实API执行进行评估所引入的巨大开销。ACEBench根据评估方法将数据分为三类:Normal、Special和Agent,分别对应基本场景、含糊或不完整指令的情境以及模拟真实世界多轮对话的多智能体交互。该数据集涵盖了8大领域和68个子领域的API,包括科技、金融、娱乐、社会、健康、文化、环境等,总计包含4538个中英文API。
当前挑战
在构建ACEBench数据集的过程中,研究人员面临了多重挑战。首先,如何设计能够全面评估LLMs工具使用能力的评估场景,尤其是那些能够模拟真实多轮对话的复杂场景。其次,构建一个包含丰富领域和子领域API的数据集,同时确保数据的多样性和准确性,对于评估LLMs在不同领域的工具使用至关重要。此外,评估LLMs工具使用能力的有效性和准确性也是一个挑战,需要设计合适的评价指标和方法来准确反映LLMs的性能。
常用场景
经典使用场景
ACEBench作为评估大型语言模型(LLM)工具使用能力的全面基准,其经典使用场景主要集中于对LLM在决策制定和推理方面的表现进行细致评估。该数据集将数据分为正常、特殊和代理三大类别,以模拟不同的工具使用场景,如基础使用、处理含糊或不完整的指令、以及模拟真实世界的多轮对话。
实际应用
在实际应用中,ACEBench可被用于评估和比较不同LLM在工具使用方面的性能,指导模型改进,以及为LLM在实际多轮对话场景中的应用提供可靠的性能指标。
衍生相关工作
基于ACEBench的评估结果,已衍生出一系列相关工作,包括对不同LLM模型工具使用能力的深入分析,以及针对特定类型数据优化LLM工具使用策略的研究。这些工作进一步扩展了ACEBench的应用范围,为LLM的研究和应用提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成



