five

Agent Leaderboard Dataset

收藏
github2025-03-12 更新2025-03-13 收录
下载链接:
https://github.com/rungalileo/agent-leaderboard
下载链接
链接失效反馈
官方服务:
资源简介:
Agent Leaderboard数据集用于评估语言模型在复杂场景中有效使用工具的能力。数据集涵盖了多个领域和交互类型,包括数学、娱乐、教育、学术、零售、航空业等。具体数据集包括BFCL、τ-bench、xLAM和ToolACE,分别应用于不同的领域和场景。

The Agent Leaderboard dataset is constructed to evaluate the capacity of language models to effectively employ tools in complex scenarios. The dataset spans diverse domains and interaction paradigms, including mathematics, entertainment, education, academia, retail, aviation, and more. Specifically, it includes BFCL, τ-bench, xLAM, and ToolACE, which are tailored for distinct domains and scenarios respectively.
创建时间:
2025-02-10
原始信息汇总

Agent Leaderboard 数据集概述

数据集简介

  • 目的:评估语言模型在复杂场景中有效使用工具的能力
  • 核心问题:回答"AI代理在真实商业场景中的表现如何?"
  • 最新动态:可通过Hugging Face Spaces查看最新排行榜

方法论

  1. 模型选择:精选多样化语言模型(20个私有模型,8个开源模型)
  2. 代理配置:标准化系统提示和一致的工具访问
  3. 指标定义:采用工具选择质量(TSQ)作为主要指标
  4. 数据集构建:从已建立的基准中战略抽样
  5. 评分系统:跨数据集的等权重平均

数据集结构

  • BFCL:数学、娱乐、教育和学术领域
  • τ-bench:零售和航空业场景
  • xLAM:跨领域数据生成(21个领域)
  • ToolACE:跨390个领域的API交互

评估指标

  • 工具选择质量(TSQ):评估模型根据实际需求选择和使用的工具的能力

实现代码

python import promptquality as pq

初始化带有TSQ评分器的评估处理器

chainpoll_tool_selection_scorer = pq.CustomizedChainPollScorer( scorer_name=pq.CustomizedScorerName.tool_selection_quality, model_alias=pq.Models.gpt_4o, )

evaluate_handler = pq.GalileoPromptCallback( project_name=project_name, run_name=run_name, scorers=[chainpoll_tool_selection_scorer], )

配置LLM以进行一致性评估

llm = llm_handler.get_llm(model, temperature=0.0, max_tokens=4000)

标准化工具使用的系统提示

system_msg = { "role": "system", "content": """Your job is to use the given tools to answer the query of human. If there is no relevant tool then reply with "I cannot answer the question with given tools". If tool is available but sufficient information is not available, then ask human to get the same. You can call as many tools as you want. Use multiple tools if needed. If the tools need to be called in a sequence then just call the first tool.""" }

运行评估

for row in df.itertuples(): chain = llm.bind_tools(tools) outputs.append( chain.invoke( [system_msg, *row.conversation], config=dict(callbacks=[evaluate_handler]) ) )

evaluate_handler.finish()

仓库结构

agent-leaderboard/ ├── data/ # 数据存储目录 ├── datasets/ │ ├── bfcl.ipynb # BFCL数据转换 │ ├── tau.ipynb # Tau基准数据转换 │ ├── toolace.ipynb # ToolACE数据转换 │ └── xlam.ipynb # XLAM数据转换 ├── evaluate/ │ ├── get_results.ipynb # 结果聚合 │ ├── llm_handler.py # LLM初始化处理器 │ ├── test_r1.ipynb # 测试R1 │ └── tool_call_exp.ipynb # 工具调用实验运行器 ├── .env # API密钥的环境变量 ├── LICENSE ├── README.md └── requirements.txt # 依赖项

致谢

  • BFCL:感谢伯克利AI研究团队
  • τ-bench:感谢Sierra研究团队
  • xLAM:感谢Salesforce AI研究团队
  • ToolACE:感谢提供跨390个领域的API交互数据集

引用

bibtex @misc{agent-leaderboard, author = {Pratik Bhavsar}, title = {Agent Leaderboard}, year = {2025}, publisher = {Galileo.ai}, howpublished = "url{https://huggingface.co/spaces/galileo-ai/agent-leaderboard}" }

搜集汇总
数据集介绍
main_image_url
构建方式
Agent Leaderboard Dataset 旨在评估语言模型在复杂场景中有效利用工具的能力。该数据集的构建方法遵循系统化的流程,包括模型选择、代理配置、指标定义、数据集策划以及评分系统。首先,从私有和开源领域精心挑选了一系列领先的语言模型。然后,标准化系统提示并确保一致的工具访问。接着,定义了以工具选择质量(TSQ)为主要指标的评估标准,并对多个领域的多样化数据集进行策略性抽样,最后采用平等加权的平均分作为评分系统。
特点
该数据集的特点在于其综合评估多个领域和交互类型的全面性,利用多样化的数据集,如BFCL、τ-bench、xLAM和ToolACE,涵盖了数学、娱乐、教育、学术领域以及零售和航空业场景。特别强调了对工具选择和使用的复杂性理解,以及模型在实际世界商业场景中的性能表现。
使用方法
使用该数据集时,首先需要通过Hugging Face Spaces上的 leaderboard 获取最新更新。数据集的评估采用TSQ指标,评估模型根据实际世界需求选择和使用工具的效果。具体实施时,通过CustomizedChainPollScorer初始化评估处理器,配置LLM,然后运行评估流程。代码库的结构清晰,包含了数据存储目录、数据集转换脚本、评估脚本、环境变量文件、许可证和依赖关系列表等。
背景与挑战
背景概述
Agent Leaderboard Dataset是一款用于评估语言模型在复杂场景中有效利用工具能力的评测数据集。该数据集的创建旨在应对2025年AI代理商领域的预测性挑战,由Galileo.ai团队于2025年构建。该数据集汇聚了多个领域的研究成果,核心研究问题是探索AI代理商在现实商业场景中的表现。Agent Leaderboard Dataset的发布对AI代理商研究领域产生了显著影响,为评估AI模型在工具使用方面的表现提供了标准化方法。
当前挑战
该数据集面临的挑战主要涉及两个方面:一是如何准确评估AI代理商在现实世界商业场景中的表现,其挑战在于构建一个能够全面反映复杂场景问题的数据集;二是构建过程中遇到的挑战,包括多样化的工具选择与调用复杂度,以及如何设计出一个既能涵盖多个领域,又能确保评估一致性和准确性的评分系统。
常用场景
经典使用场景
在人工智能领域,Agent Leaderboard Dataset承担着评价语言模型在复杂场景中有效利用工具能力的重任。该数据集的经典使用场景在于,通过模拟真实世界商业环境,对AI代理的性能进行量化评估,旨在回答AI代理在现实商业场景中的表现如何。
衍生相关工作
基于Agent Leaderboard Dataset,学术界和产业界已经衍生出多项相关工作,包括对数据集本身的扩展、评估方法的改进以及新的AI代理技术的开发。这些工作进一步推动了AI代理技术在复杂任务和真实世界应用中的发展和应用。
数据集最近研究
最新研究方向
在人工智能领域,特别是在语言模型与工具交互的研究前沿,Agent Leaderboard数据集以其独特的评价体系引起了广泛关注。该数据集旨在评估语言模型在复杂场景中有效利用工具的能力,顺应技术界领袖对于2025年AI发展的预言。当前研究主要围绕模型在真实商业场景的表现,通过系统的模型选择、标准化配置、指标定义、数据集策展以及评分系统,探索AI代理的绩效和功能。这一评价体系的核心指标——工具选择质量(TSQ),为理解AI模型如何根据现实世界需求选择和使用工具提供了量化方法,对于推动AI代理在实际应用中的发展具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作