Agent Leaderboard Dataset
收藏Agent Leaderboard 数据集概述
数据集简介
- 目的:评估语言模型在复杂场景中有效使用工具的能力
- 核心问题:回答"AI代理在真实商业场景中的表现如何?"
- 最新动态:可通过Hugging Face Spaces查看最新排行榜
方法论
- 模型选择:精选多样化语言模型(20个私有模型,8个开源模型)
- 代理配置:标准化系统提示和一致的工具访问
- 指标定义:采用工具选择质量(TSQ)作为主要指标
- 数据集构建:从已建立的基准中战略抽样
- 评分系统:跨数据集的等权重平均
数据集结构
- BFCL:数学、娱乐、教育和学术领域
- τ-bench:零售和航空业场景
- xLAM:跨领域数据生成(21个领域)
- ToolACE:跨390个领域的API交互
评估指标
- 工具选择质量(TSQ):评估模型根据实际需求选择和使用的工具的能力
实现代码
python import promptquality as pq
初始化带有TSQ评分器的评估处理器
chainpoll_tool_selection_scorer = pq.CustomizedChainPollScorer( scorer_name=pq.CustomizedScorerName.tool_selection_quality, model_alias=pq.Models.gpt_4o, )
evaluate_handler = pq.GalileoPromptCallback( project_name=project_name, run_name=run_name, scorers=[chainpoll_tool_selection_scorer], )
配置LLM以进行一致性评估
llm = llm_handler.get_llm(model, temperature=0.0, max_tokens=4000)
标准化工具使用的系统提示
system_msg = { "role": "system", "content": """Your job is to use the given tools to answer the query of human. If there is no relevant tool then reply with "I cannot answer the question with given tools". If tool is available but sufficient information is not available, then ask human to get the same. You can call as many tools as you want. Use multiple tools if needed. If the tools need to be called in a sequence then just call the first tool.""" }
运行评估
for row in df.itertuples(): chain = llm.bind_tools(tools) outputs.append( chain.invoke( [system_msg, *row.conversation], config=dict(callbacks=[evaluate_handler]) ) )
evaluate_handler.finish()
仓库结构
agent-leaderboard/ ├── data/ # 数据存储目录 ├── datasets/ │ ├── bfcl.ipynb # BFCL数据转换 │ ├── tau.ipynb # Tau基准数据转换 │ ├── toolace.ipynb # ToolACE数据转换 │ └── xlam.ipynb # XLAM数据转换 ├── evaluate/ │ ├── get_results.ipynb # 结果聚合 │ ├── llm_handler.py # LLM初始化处理器 │ ├── test_r1.ipynb # 测试R1 │ └── tool_call_exp.ipynb # 工具调用实验运行器 ├── .env # API密钥的环境变量 ├── LICENSE ├── README.md └── requirements.txt # 依赖项
致谢
引用
bibtex @misc{agent-leaderboard, author = {Pratik Bhavsar}, title = {Agent Leaderboard}, year = {2025}, publisher = {Galileo.ai}, howpublished = "url{https://huggingface.co/spaces/galileo-ai/agent-leaderboard}" }




