PTBench
收藏arXiv2025-05-07 更新2025-05-09 收录
下载链接:
https://github.com/hyfshadow/PTBench
下载链接
链接失效反馈官方服务:
资源简介:
PTBench是第一个用于评估大型模型在个性化工具调用方面的能力的基准数据集。该数据集由1083个高质量的标注数据样本组成,旨在解决在工具调用中考虑用户个性化偏好的问题,包括工具偏好和基于用户资料的查询。数据集的构建过程包括三个主要阶段:工具生成、用户资料构建和查询与解决方案生成。通过使用高级大型语言模型(LLM)进行工具生成和用户行为模拟,PTBench提供了多样化的工具和用户资料,以训练和评估模型的个性化工具调用能力。
PTBench is the first benchmark dataset for evaluating the capability of large models in personalized tool invocation. This dataset consists of 1083 high-quality annotated data samples, aiming to address the problem of considering users' personalized preferences during tool invocation, including tool preferences and user profile-based queries. The construction process of the dataset includes three main stages: tool generation, user profile construction, and query and solution generation. By leveraging state-of-the-art large language models (LLMs) for tool generation and user behavior simulation, PTBench provides diverse tools and user profiles for training and evaluating models' capabilities in personalized tool invocation.
提供机构:
中国科学技术大学, 上海交通大学, 华为诺亚方舟实验室
创建时间:
2025-05-07
原始信息汇总
PTBench数据集概述
简介
PTBench是首个面向个性化工具调用的基准测试,旨在全面评估模型基于用户信息调用工具的能力。该数据集通过系统化的个性化数据合成框架构建而成。
主要特性
- 支持开源模型(OSS)和API模型的评估
- 提供结果分析和错误统计功能
- 包含在线排行榜系统
支持的开源模型
| 模型名称 | 模板标识 |
|---|---|
| Qwen2.5 | qwen |
| Llama 3 | llama3 |
| Mistral | mistral |
| xLAM | xlam |
| Hammer | hammer |
| deepseek R1(Distill) | deepseek3 |
评估流程
-
环境配置
- 需要Python 3.9环境
- 通过
requirements.txt安装依赖
-
模型评估
- OSS模型:修改
config.yaml配置后运行python run.py --type oss - API模型:设置API密钥后运行
python run.py --type api
- OSS模型:修改
-
结果查看
- 输出分为三部分:未训练用户、已训练用户和总体结果
- 包含准确率和错误分析数据
扩展支持
- 可添加未支持模型:需在
src/template.py中添加模板 - 可修改答案格式:需同步调整
src/parser.py中的解析逻辑
排行榜更新
用户可通过发送邮件至huang_yuefeng@mail.ustc.edu.cn提交评估结果,要求包含:
- HuggingFace上的公开模型名称
- 评估结果CSV文件
搜集汇总
数据集介绍

构建方式
PTBench数据集的构建采用了多阶段自动化合成框架PTool,涵盖工具生成、用户画像构建及查询-解决方案生成三个核心环节。在工具生成阶段,通过深度优先扩展的API树结构,模拟了购物、外卖等5个日常场景下15个平台的360个API;用户画像构建采用自底向上的特征聚类和自顶向下的属性分配策略,融合了74个训练用户和6个测试用户的基本特征与隐式偏好;最终通过多智能体协作生成7,096条训练数据和1,083条人工验证的测试数据,确保数据覆盖工具偏好和依赖画像的查询两类核心任务。
特点
该数据集首创性地聚焦个性化工具调用场景,具备三大特征:一是工具选择的偏好性,针对功能相似的平台API(如不同电商平台),需结合用户历史行为进行差异化选择;二是参数推断的上下文依赖性,38%的测试查询需从用户画像中推导缺失参数(如地址、消费偏好);三是场景多样性,覆盖购物、旅行等5类高频生活场景,平台间存在显性特征差异(如价格敏感度、配送时效),用户画像包含职业、消费习惯等21维特征,构建了80个差异化用户原型。
使用方法
使用PTBench需遵循三阶段流程:首先加载工具库和用户画像,工具描述采用OpenAPI规范,用户数据包含结构化特征和行为日志;其次处理查询时需识别其属于工具偏好型(选择平台)或画像依赖型(补全参数),例如对查询'推荐IT书籍'需结合用户职业和价格敏感度筛选平台;最后评估时需检测格式合规性、平台选择准确率和参数填充正确率,其中12.7%的参数需从画像隐含特征(如'常购电子产品')推导。基准测试支持零样本评估和微调模式,提供LoRA适配器实现快速部署。
背景与挑战
背景概述
PTBench是由中国科学技术大学、上海交通大学和华为诺亚方舟实验室的研究团队于2025年推出的首个面向个性化工具调用的大规模基准测试数据集。该数据集聚焦于大型语言模型(LLMs)在工具调用过程中整合用户个性化特征的核心挑战,提出了工具偏好(Tool Preference)和基于用户画像的参数推断(Profile-dependent Query)两大创新任务。通过自动化数据合成框架PTool生成的1,083条高质量标注数据,涵盖了购物、外卖、娱乐等5个日常生活场景,涉及15个平台和360个API工具,有效填补了传统工具调用研究忽视用户个性化因素的空白。
当前挑战
PTBench面临的核心挑战体现在两个维度:在领域问题层面,现有工具调用技术难以处理用户隐含偏好(如对功能相似工具的选择倾向)和缺失参数推理(如从用户历史行为推断配送地址);在构建过程层面,需解决工具API的多样性生成(需覆盖80种用户特征组合)、用户画像的层次化建模(平衡显性特征与隐性偏好),以及多智能体协作下的数据真实性验证(确保20%人工校验样本的标注一致性)。特别值得注意的是,基线实验显示当前最优模型GPT-4-turbo在工具偏好任务上的准确率仅为54.8%,突显了该数据集对现有技术提出的严峻挑战。
常用场景
经典使用场景
PTBench数据集在个性化工具调用领域具有广泛的应用场景,特别是在需要根据用户历史行为和偏好进行工具选择的场景中。例如,在电子商务平台中,用户可能对不同的购物平台有不同的偏好,PTBench能够帮助模型根据用户的历史购买记录和偏好,选择最适合的工具进行商品推荐或购买操作。这种场景不仅提升了用户体验,还显著提高了工具调用的准确性和效率。
解决学术问题
PTBench数据集解决了大型语言模型在个性化工具调用中的两个关键学术问题:工具偏好和基于用户资料的查询。工具偏好问题关注于在功能相似的工具中选择用户偏好的工具,而基于用户资料的查询则解决了用户查询中缺失参数的推断问题。通过提供高质量的数据集,PTBench为研究者提供了一个标准化的评估平台,推动了这一领域的研究进展。
衍生相关工作
PTBench数据集的推出催生了一系列相关研究工作,特别是在个性化工具调用和大型语言模型的应用方面。例如,基于PTBench的研究提出了多种新的模型架构和训练方法,以进一步提升个性化工具调用的性能。此外,PTBench还激发了在推荐系统、智能助手等领域的创新应用,推动了相关技术的快速发展。
以上内容由遇见数据集搜集并总结生成



