Token-level Tool-use Preference Alignment Training Framework (TTPA)

Name: Token-level Tool-use Preference Alignment Training Framework (TTPA)
Creator: 电子科技大学, 山东大学
Published: 2025-05-26 22:06:02
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.20016v1

下载链接

链接失效反馈

官方服务：

资源简介：

TTPA框架旨在解决现有工具学习方法的局限性，这些方法通常依赖监督微调，并忽视内部工具调用细节的细粒度优化，导致偏好对齐和错误区分的限制。TTPA首先引入反向数据集构建方法，通过反向生成流程创建高质量的多轮工具使用数据集。此外，我们提出了Token-level Preference Sampling (TPS)来通过建模生成过程中的token-level差异来捕获细粒度偏好。为了解决评分中的偏差，我们引入了Error-oriented Scoring Mechanism (ESM)，它量化工具调用错误并可用作训练信号。在三个不同的基准数据集上的广泛实验表明，TTPA在提高工具使用性能方面取得了显著成效，并在模型和数据集之间表现出强大的泛化能力。

The TTPA framework aims to address the limitations of existing tool learning methods, which typically rely on supervised fine-tuning while neglecting fine-grained optimization of internal tool invocation details, resulting in constraints on preference alignment and error discrimination. Specifically, TTPA first introduces a reverse dataset construction method, which creates high-quality multi-turn tool usage datasets through a reverse generation pipeline. Furthermore, we propose Token-level Preference Sampling (TPS) to capture fine-grained preferences by modeling token-level differences during the generation process. To address the bias in scoring, we introduce the Error-oriented Scoring Mechanism (ESM), which quantifies tool invocation errors and can serve as training signals. Extensive experiments conducted on three distinct benchmark datasets demonstrate that TTPA achieves significant improvements in tool usage performance, and exhibits strong generalization capabilities across models and datasets.

提供机构：

电子科技大学, 山东大学

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

在工具学习领域，数据集的构建质量直接影响大语言模型（LLM）的工具调用能力。TTPA数据集采用了一种创新的反向数据构建方法（Reversed Dataset Construction），通过预定义工具使用场景，先由LLM生成工具调用序列和最终答案，再反向推导出对应的查询。这种方法有效避免了传统正向生成中常见的不可回答查询和数据泄露问题，确保了数据的高相关性和可解性。此外，通过多轮工具调用和动态场景约束，数据集进一步提升了复杂任务下的多样性和真实性。

使用方法

该数据集主要应用于工具学习模型的偏好对齐训练。使用时可分三个阶段：首先通过反向构建模块生成原始工具调用序列；随后采用令牌级采样策略，从LLM生成的概率分布中提取Top-K候选令牌构建偏好对；最后利用错误导向评分机制对样本进行分级，作为DPO（Direct Preference Optimization）的训练信号。实验表明，基于该数据集微调的模型在ToolBench、BFCL等基准测试中，工具选择准确率平均提升11.8%，参数填充正确率最高达81.3%。值得注意的是，数据集支持跨模型迁移，在LLaMA-3.1和Qwen等不同架构上均表现出强泛化性。

背景与挑战

背景概述

Token-level Tool-use Preference Alignment Training Framework (TTPA) 是由电子科技大学和山东大学的研究团队于2025年提出的一种新型工具学习训练框架，旨在解决大型语言模型（LLMs）在工具调用中的细粒度偏好对齐问题。该框架通过反向数据构建和基于错误导向的评分机制，构建高质量的细粒度偏好数据集，显著提升了模型在工具选择、参数填充和返回值解析等方面的性能。TTPA的提出不仅弥补了现有监督微调方法在细粒度优化上的不足，还为工具学习的实际应用提供了更为可靠的解决方案，对推动LLMs在复杂现实任务中的应用具有重要意义。

当前挑战

TTPA面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，现有方法往往忽视工具调用内部的细粒度偏好差异，导致模型在结构化输出（如工具调用）中因单个令牌错误而完全失败。此外，传统的轨迹级偏好采样方法无法准确评估每个工具调用的质量，引入的偏好数据噪声较大，限制了对齐策略的有效性。在构建过程中，TTPA需要解决数据泄漏、不可回答查询以及工具名称或参数泄漏等问题，同时还需设计高效的细粒度评分机制以量化工具调用错误，这些都对数据集的构建质量和计算效率提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，TTPA数据集主要用于优化大型语言模型（LLMs）的工具调用能力。通过精细化的token级偏好对齐训练，该数据集能够显著提升模型在结构化输出中的准确性，例如API调用、参数填充和返回值解析。其经典使用场景包括多轮对话中的工具调用、复杂任务规划以及实时信息检索，确保模型在每一步生成中都遵循正确的工具调用逻辑。

解决学术问题

TTPA数据集解决了工具学习中两个关键学术问题：一是传统监督微调方法忽视的token级错误优化问题，例如格式错误或参数缺失；二是偏好数据采样中的粗粒度评估偏差问题。通过引入反向数据构建和token级偏好采样，该数据集实现了对模型输出的细粒度对齐，显著降低了工具调用的失败率，为工具学习领域提供了更可靠的训练基准。

实际应用

在实际应用中，TTPA数据集被广泛集成于智能助手、自动化工作流和实时决策系统中。例如，在旅行规划场景中，模型可准确调用航班查询、酒店预订等工具链；在金融领域，它能规范生成合规的API请求以获取实时市场数据。其误差导向评分机制进一步确保了工业级应用中的输出稳定性，成为企业部署工具增强型LLMs的核心数据支撑。

数据集最近研究