tool-use-finetuning

Hugging Face2025-07-27 更新2025-07-28 收录

下载链接：

https://huggingface.co/datasets/shawhin/tool-use-finetuning

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于微调gemma-3-1b-it模型进行函数调用的数据集，包含了查询、查询类型、跟踪信息、可用的工具数量、是否需要工具以及工具名称等字段。数据集分为训练集、验证集和测试集。

This is a dataset dedicated to fine-tuning the gemma-3-1b-it model for function calling tasks. It includes fields such as query, query type, tracking information, number of available tools, whether tool usage is required, and tool name. The dataset is divided into training, validation, and test sets.

创建时间：

2025-07-17

原始信息汇总

数据集概述

基本信息

数据集名称: tool-use-finetuning
用途: 用于微调gemma-3-1b-it模型以实现函数调用功能

数据集结构

特征:
- query: 字符串类型，表示查询内容
- query_type: 字符串类型，表示查询类型
- trace: 列表类型，包含以下子特征:
  - content: 字符串类型
  - role: 字符串类型
- num_tools_available: int64类型，表示可用工具数量
- tool_needed: 布尔类型，表示是否需要工具
- tool_name: 字符串类型，表示工具名称
数据划分:
- train:
  - 样本数: 477
  - 大小: 2,897,711字节
- validation:
  - 样本数: 60
  - 大小: 356,429字节
- test:
  - 样本数: 60
  - 大小: 392,928字节
总体信息:
- 下载大小: 1,000,364字节
- 数据集总大小: 3,647,068字节

相关资源

YouTube视频: https://youtu.be/fAFJYbtTsC0
博客文章: https://medium.com/@shawhin/fine-tuning-llms-for-tool-use-5f1db03d7c55
GitHub仓库: https://github.com/ShawhinT/llm-tool-use-ft
微调模型: https://huggingface.co/shawhin/gemma-3-1b-tool-use
原始模型: https://huggingface.co/google/gemma-3-1b-it

搜集汇总

数据集介绍

构建方式

在工具调用智能体研究领域，tool-use-finetuning数据集通过精心设计的流程构建而成。该数据集采集了477个训练样本和120个验证测试样本，每个样本包含自然语言查询、查询类型标注以及多轮对话轨迹。数据构建过程中特别关注工具调用的场景需求，记录了可用工具数量、工具需求判断及具体工具名称等关键维度，为模型理解工具使用语境提供了结构化支持。

使用方法

研究者可将该数据集直接应用于Gemma系列大模型的工具调用微调任务。典型使用流程包括加载预训练模型后，利用数据集中的对话轨迹进行有监督微调，重点优化模型对工具需求的判断能力和工具选择准确性。数据集的三个标准划分支持完整的训练-验证-测试流程，其结构化字段设计便于开发者快速构建工具调用相关的下游任务评估指标。

背景与挑战

背景概述

tool-use-finetuning数据集由Shawhin等研究人员构建，旨在为大语言模型（如gemma-3-1b-it）的工具使用能力提供微调支持。该数据集通过结构化查询和工具调用轨迹，探索模型在复杂任务中如何有效利用外部工具。其核心研究问题聚焦于增强模型的功能调用能力，以提升其在现实场景中的实用性。该数据集的发布为自然语言处理领域的研究者提供了重要的基准资源，推动了工具增强型语言模型的发展。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题方面，如何准确识别用户查询中的工具需求，并生成合理的工具调用序列，这对模型的语义理解和逻辑推理能力提出了较高要求；构建过程方面，数据集的标注需要精确捕捉工具使用的上下文和逻辑，同时确保多样性和覆盖面，以应对不同场景下的工具调用需求。这些挑战使得数据集的构建和应用均具有较高的复杂性。

常用场景

经典使用场景

在自然语言处理领域，tool-use-finetuning数据集为研究者提供了一个专门用于微调语言模型以掌握工具调用能力的标准化资源。该数据集通过精心设计的查询-追踪结构，使模型能够学习如何根据用户需求选择并调用合适的工具，这一过程在对话系统和智能助手的开发中尤为重要。

解决学术问题

该数据集有效解决了语言模型在工具调用场景中的泛化能力不足问题，为研究者提供了研究模型在复杂交互环境中决策过程的实验平台。通过分析模型在工具选择、参数传递等环节的表现，可以深入理解语言模型在结构化任务中的认知机制，这对提升模型的实用性和可靠性具有重要意义。

实际应用

在实际应用中，tool-use-finetuning数据集支撑了各类智能系统的开发，如自动化客服、智能编程助手等需要动态调用外部工具的场景。基于该数据集训练的模型能够准确理解用户意图，并自主完成API调用、数据库查询等操作，大幅提升了人机交互的效率和自然度。

数据集最近研究