Wrench Training Data

github2026-04-04 更新2026-04-06 收录

下载链接：

https://github.com/ClankLabs/wrench-training-data

下载链接

链接失效反馈

官方服务：

资源简介：

Wrench训练数据包含1,147个基础训练示例和105个前沿训练示例，分为18个JSONL文件，涵盖工具调用、代理行为、多步骤链、错误恢复等多个类别。

The Wrench training dataset comprises 1,147 basic training instances and 105 state-of-the-art training instances, organized into 18 JSONL files, and encompasses multiple categories including tool calling, agent behavior, multi-step chains, error recovery, and more.

创建时间：

2026-03-26

原始信息汇总

Wrench Training Data 数据集概述

数据集简介

该数据集是用于训练 Wrench 系列模型（一组专为智能体工具调用而构建的LoRA微调模型）的训练数据和相关笔记本。

模型信息

模型	基础模型	分数	显存需求	下载地址
Wrench 35B v7	Qwen3.5-35B-A3B (MoE)	118/120 (98.3%)	16GB	https://huggingface.co/ClankLabs/Wrench-35B-A3B-Q4_K_M-GGUF
Wrench 9B v4	Qwen3.5-9B (dense)	114/120 (95.0%)	8GB	https://huggingface.co/ClankLabs/Wrench-9B-Q4_K_M-GGUF

性能评估

基准测试结果

模型	Clank Benchmark	BFCL (non_live)	运行环境	成本
Wrench 35B v7	118/120	82.0%	16GB GPU	免费
Claude Opus 4.6	~118/120	—	云端	付费
GPT-5.2	~116/120	—	云端	$20/月
Claude Sonnet 4.6	~114/120	—	云端	$20/月
Wrench 35B v5	113/120	—	16GB GPU	免费
GPT-4o	~110/120	—	云端	$20/月
Wrench 9B v4	114/120	—	8GB GPU	免费

BFCL 详细结果 (Wrench 35B)

类别	准确率	正确/总数
Simple (Python)	84.75%	339/400
Simple (Java)	44.0%	44/100
Simple (JavaScript)	56.0%	28/50
Multiple	84.5%	169/200
Parallel	85.0%	170/200
Parallel Multiple	82.5%	165/200
Irrelevance Detection	88.75%	213/240
总计	82.0%	1128/1390

分类别详细结果 (35B)

类别	v5	v7	变化
Basic Tool Use	15/15	15/15	—
Multi-Step Tasks	14/15	15/15	+1
Error Recovery	13/15	14/15	+1
Response Quality	15/15	15/15	—
System Prompt Following	14/15	14/15	—
Planning & Reasoning	14/15	15/15	+1
Tool Format Correctness	13/15	15/15	+2
Safety & Restraint	15/15	15/15	—
总计	113/120	118/120	+5

数据集内容结构

wrench-training-data/ ├── datasets/ # 1,147 个基础训练示例 (18 个 JSONL 文件) │ ├── tool-calling.jsonl │ ├── agent-behavior.jsonl │ ├── multi-step-chains.jsonl │ ├── error-recovery.jsonl │ ├── ... (共 18 个文件) │ └── sub-agent-roles.jsonl ├── datasets-frontier/ # 105 个前沿差距训练示例 (4 个 JSONL 文件) │ ├── uncertainty-calibration.jsonl # 25 — 在猜测前验证 │ ├── constraint-following.jsonl # 25 — 严格按照要求执行 │ ├── strategy-revision.jsonl # 20 — 智能失败，调整而非重试 │ └── long-context-multiturn.jsonl # 35 — 在 20+ 轮对话中保持连贯性 ├── notebooks/ │ ├── train.ipynb # 35B 训练笔记本 (RunPod 2x H100) │ └── train-8b.ipynb # 9B 训练笔记本 (RunPod 1x H100) ├── benchmark.md # 120 点评分标准 (8 个类别) └── README.md

数据集细分

基础数据 (1,147 个示例)

数据集	示例数量	描述
advanced-coding-2	92	涉及工具使用的复杂编码任务
agent-behavior	92	通用智能体行为模式
coding-knowledge	91	代码理解和生成
concise-direct	91	简洁、无冗余的回应
debugging-mastery	91	使用工具进行系统性调试
error-recovery	91	优雅处理工具故障
knowing-when-to-stop	91	避免不必要的额外步骤
multi-step-chains	91	读取 -> 编辑 -> 验证序列
sub-agents	91	委托给子智能体
system-prompt-following	91	遵守系统提示约束
tool-calling	91	核心 ReAct 工具调用格式
always-use-tools	30	对事实查询使用工具，绝不产生幻觉
multi-step-chains-v2	30	包含真实工具结果的多轮完整链
destructive-action-caution	20	在破坏性操作前警告
tool-restraint	30	何时不使用工具
workflow-composition	30	多工具工作流模式
sub-agent-roles	20	基于角色的子智能体使用
小计	1,147

前沿数据 (105 个示例 — v7 新增)

旨在弥补本地模型与前沿模型之间特定行为差距的针对性训练数据。

数据集	示例数量	描述
uncertainty-calibration	25	表达不确定性，在行动前使用工具验证
constraint-following	25	严格遵守用户约束，抵制范围蔓延
strategy-revision	20	分析失败原因并改变方法，而非盲目重试
long-context-multiturn	35	在 10-20+ 轮对话中保持连贯性
小计	105

总计: 1,252 个示例

训练详情

Wrench 35B (v7 — 当前版本)

基础模型: Qwen3.5-35B-A3B (MoE, 30亿活跃参数)
方法: LoRA (秩 64, alpha 128)，通过 HuggingFace PEFT + Trainer
硬件: 2x NVIDIA H100 80GB (RunPod)
训练时间: 每次运行约 1 小时
超参数: batch_size=1, gradient_accumulation=8, 2 个周期, lr=1e-4
最终损失: 0.1592
输出格式: GGUF Q4_K_M (~20GB，需 16GB 显存)

Wrench 9B (v4 — 当前版本)

基础模型: Qwen3.5-9B (密集)
方法: LoRA (秩 32, alpha 64)，通过 HuggingFace PEFT + Trainer
硬件: 1x NVIDIA H100 80GB (RunPod)
训练时间: 每次运行约 30 分钟
超参数: batch_size=1, gradient_accumulation=8, 2 个周期, lr=1e-4
示例数量: 1,356 (1,251 基础 + 105 前沿)
最终损失: 0.1512
输出格式: GGUF Q4_K_M (~5GB，需 8GB 显存)

数据格式

ShareGPT 格式 — 每个示例都是一个包含工具调用的多轮对话： json { "conversations": [ {"from": "system", "value": "You are an AI agent with tools..."}, {"from": "human", "value": "Read the config file"}, {"from": "gpt", "value": "Ill read that file.

tool_call {"name": "read_file", "arguments": {"path": "/etc/config.json"}} "}, {"from": "tool", "value": "{"content": "..."}"}, {"from": "gpt", "value": "Heres whats in the config: ..."} ] }

许可证

Apache 2.0 — 可自由使用该数据。

相关链接

https://huggingface.co/ClankLabs/Wrench-35B-A3B-Q4_K_M-GGUF
https://huggingface.co/ClankLabs/Wrench-9B-Q4_K_M-GGUF
https://github.com/ClankLabs/wrench-training-data
https://github.com/ClankLabs/Clank
https://clanklabs.dev/wrench

搜集汇总

数据集介绍

构建方式

在智能体工具调用领域，数据集的构建质量直接影响模型的泛化能力。Wrench Training Data的构建采用了分层设计，包含1,147个基础训练样本和105个前沿训练样本。基础数据涵盖18个类别，如工具调用、多步任务链和错误恢复等，通过JSONL格式组织，每个样本均为多轮对话，模拟真实工具交互场景。前沿数据则针对不确定性校准、约束遵循等特定行为差距进行针对性补充。所有数据均采用ShareGPT格式，确保对话结构的一致性与可扩展性。

特点

该数据集的核心特点在于其高度的结构化和场景覆盖广度。数据样本总量达1,252个，细致划分为工具调用、代理行为、多步推理等22个专项类别，每个类别均对应特定的智能体能力维度。数据集特别强调对复杂场景的建模，如长上下文多轮对话的连贯性保持、策略修订中的智能失败处理等。此外，数据格式统一且兼容主流训练框架，支持直接用于基于LoRA等参数高效微调方法的模型训练，为研究者提供了即用型的高质量语料。

使用方法

使用该数据集进行模型训练需遵循系统化的流程。用户首先需克隆代码仓库并获取全部数据文件，随后可依托云计算平台配置硬件环境，如使用配备H100 GPU的RunPod实例。训练过程通过提供的Jupyter Notebook脚本引导，支持对Qwen等基础模型进行LoRA微调，关键超参数如学习率、批次大小均已预设优化。训练完成后，模型可导出为GGUF格式，便于在Ollama或llama.cpp等推理框架中部署。整个流程兼顾了效率与复现性，使研究者能够快速构建专属的工具调用智能体。

背景与挑战

背景概述

在智能体工具调用领域，高效且可靠的模型微调是推动技术落地的关键。Wrench训练数据集由ClankLabs团队于近期构建，旨在为基于LoRA技术微调的Wrench模型系列提供高质量的指令数据。该数据集聚焦于解决智能体在复杂环境中进行多步骤工具调用、错误恢复及行为规划等核心研究问题，其构建依托于前沿的Qwen3.5系列大语言模型。通过在伯克利函数调用排行榜等标准化基准测试中展现的优异性能，该数据集及其衍生的模型为开源社区提供了可本地部署的高效智能体解决方案，显著降低了相关研究与应用的硬件门槛和成本。

当前挑战

该数据集致力于应对智能体工具调用领域的核心挑战，即如何使模型在多样化的现实场景中精准、可靠且安全地使用外部工具。具体挑战包括处理多步骤任务链的复杂规划、在工具调用失败时进行优雅的错误恢复、严格遵循系统指令与用户约束以避免行为漂移，以及在长上下文多轮对话中保持逻辑一致性。在数据构建过程中，挑战体现在高质量训练样本的规模化采集与标注，尤其是针对前沿行为差距（如不确定性校准、策略修订等）设计具有针对性的示例，并确保数据格式的统一性与工具调用语义的精确性，以支撑模型的有效泛化。

常用场景

经典使用场景

在智能体工具调用研究领域，Wrench训练数据集为构建专业化语言模型提供了核心训练素材。该数据集通过1252个精心设计的对话示例，覆盖了从基础工具调用到复杂多步推理的完整行为谱系。研究者利用这些结构化数据对Qwen等基础模型进行LoRA微调，使其能够精准理解用户指令并生成规范的工具调用序列。这种训练范式特别适用于需要模型在受限环境中执行具体操作任务的场景，例如自动化脚本生成或系统配置管理。

衍生相关工作

围绕该数据集衍生出多个具有影响力的研究方向。在模型架构方面，研究者探索了不同参数规模的适配方案，形成了从9B到35B的模型系列。评估体系上发展出包含120项指标的细粒度评测框架，并延伸至伯克利函数调用排行榜等第三方基准。工具生态建设方面，催生了Clank Gateway等智能体部署框架的完善。这些工作共同构建起从数据制备、模型训练到系统集成的完整技术栈。

数据集最近研究