five

Wrench Training Data

收藏
github2026-04-04 更新2026-04-06 收录
下载链接:
https://github.com/ClankLabs/wrench-training-data
下载链接
链接失效反馈
官方服务:
资源简介:
Wrench训练数据包含1,147个基础训练示例和105个前沿训练示例,分为18个JSONL文件,涵盖工具调用、代理行为、多步骤链、错误恢复等多个类别。

The Wrench training dataset comprises 1,147 basic training instances and 105 state-of-the-art training instances, organized into 18 JSONL files, and encompasses multiple categories including tool calling, agent behavior, multi-step chains, error recovery, and more.
创建时间:
2026-03-26
原始信息汇总

Wrench Training Data 数据集概述

数据集简介

该数据集是用于训练 Wrench 系列模型(一组专为智能体工具调用而构建的LoRA微调模型)的训练数据和相关笔记本。

模型信息

模型 基础模型 分数 显存需求 下载地址
Wrench 35B v7 Qwen3.5-35B-A3B (MoE) 118/120 (98.3%) 16GB https://huggingface.co/ClankLabs/Wrench-35B-A3B-Q4_K_M-GGUF
Wrench 9B v4 Qwen3.5-9B (dense) 114/120 (95.0%) 8GB https://huggingface.co/ClankLabs/Wrench-9B-Q4_K_M-GGUF

性能评估

基准测试结果

模型 Clank Benchmark BFCL (non_live) 运行环境 成本
Wrench 35B v7 118/120 82.0% 16GB GPU 免费
Claude Opus 4.6 ~118/120 云端 付费
GPT-5.2 ~116/120 云端 $20/月
Claude Sonnet 4.6 ~114/120 云端 $20/月
Wrench 35B v5 113/120 16GB GPU 免费
GPT-4o ~110/120 云端 $20/月
Wrench 9B v4 114/120 8GB GPU 免费

BFCL 详细结果 (Wrench 35B)

类别 准确率 正确/总数
Simple (Python) 84.75% 339/400
Simple (Java) 44.0% 44/100
Simple (JavaScript) 56.0% 28/50
Multiple 84.5% 169/200
Parallel 85.0% 170/200
Parallel Multiple 82.5% 165/200
Irrelevance Detection 88.75% 213/240
总计 82.0% 1128/1390

分类别详细结果 (35B)

类别 v5 v7 变化
Basic Tool Use 15/15 15/15
Multi-Step Tasks 14/15 15/15 +1
Error Recovery 13/15 14/15 +1
Response Quality 15/15 15/15
System Prompt Following 14/15 14/15
Planning & Reasoning 14/15 15/15 +1
Tool Format Correctness 13/15 15/15 +2
Safety & Restraint 15/15 15/15
总计 113/120 118/120 +5

数据集内容结构

wrench-training-data/ ├── datasets/ # 1,147 个基础训练示例 (18 个 JSONL 文件) │ ├── tool-calling.jsonl │ ├── agent-behavior.jsonl │ ├── multi-step-chains.jsonl │ ├── error-recovery.jsonl │ ├── ... (共 18 个文件) │ └── sub-agent-roles.jsonl ├── datasets-frontier/ # 105 个前沿差距训练示例 (4 个 JSONL 文件) │ ├── uncertainty-calibration.jsonl # 25 — 在猜测前验证 │ ├── constraint-following.jsonl # 25 — 严格按照要求执行 │ ├── strategy-revision.jsonl # 20 — 智能失败,调整而非重试 │ └── long-context-multiturn.jsonl # 35 — 在 20+ 轮对话中保持连贯性 ├── notebooks/ │ ├── train.ipynb # 35B 训练笔记本 (RunPod 2x H100) │ └── train-8b.ipynb # 9B 训练笔记本 (RunPod 1x H100) ├── benchmark.md # 120 点评分标准 (8 个类别) └── README.md

数据集细分

基础数据 (1,147 个示例)

数据集 示例数量 描述
advanced-coding-2 92 涉及工具使用的复杂编码任务
agent-behavior 92 通用智能体行为模式
coding-knowledge 91 代码理解和生成
concise-direct 91 简洁、无冗余的回应
debugging-mastery 91 使用工具进行系统性调试
error-recovery 91 优雅处理工具故障
knowing-when-to-stop 91 避免不必要的额外步骤
multi-step-chains 91 读取 -> 编辑 -> 验证序列
sub-agents 91 委托给子智能体
system-prompt-following 91 遵守系统提示约束
tool-calling 91 核心 ReAct 工具调用格式
always-use-tools 30 对事实查询使用工具,绝不产生幻觉
multi-step-chains-v2 30 包含真实工具结果的多轮完整链
destructive-action-caution 20 在破坏性操作前警告
tool-restraint 30 何时不使用工具
workflow-composition 30 多工具工作流模式
sub-agent-roles 20 基于角色的子智能体使用
小计 1,147

前沿数据 (105 个示例 — v7 新增)

旨在弥补本地模型与前沿模型之间特定行为差距的针对性训练数据。

数据集 示例数量 描述
uncertainty-calibration 25 表达不确定性,在行动前使用工具验证
constraint-following 25 严格遵守用户约束,抵制范围蔓延
strategy-revision 20 分析失败原因并改变方法,而非盲目重试
long-context-multiturn 35 在 10-20+ 轮对话中保持连贯性
小计 105

总计: 1,252 个示例

训练详情

Wrench 35B (v7 — 当前版本)

  • 基础模型: Qwen3.5-35B-A3B (MoE, 30亿活跃参数)
  • 方法: LoRA (秩 64, alpha 128),通过 HuggingFace PEFT + Trainer
  • 硬件: 2x NVIDIA H100 80GB (RunPod)
  • 训练时间: 每次运行约 1 小时
  • 超参数: batch_size=1, gradient_accumulation=8, 2 个周期, lr=1e-4
  • 最终损失: 0.1592
  • 输出格式: GGUF Q4_K_M (~20GB,需 16GB 显存)

Wrench 9B (v4 — 当前版本)

  • 基础模型: Qwen3.5-9B (密集)
  • 方法: LoRA (秩 32, alpha 64),通过 HuggingFace PEFT + Trainer
  • 硬件: 1x NVIDIA H100 80GB (RunPod)
  • 训练时间: 每次运行约 30 分钟
  • 超参数: batch_size=1, gradient_accumulation=8, 2 个周期, lr=1e-4
  • 示例数量: 1,356 (1,251 基础 + 105 前沿)
  • 最终损失: 0.1512
  • 输出格式: GGUF Q4_K_M (~5GB,需 8GB 显存)

数据格式

ShareGPT 格式 — 每个示例都是一个包含工具调用的多轮对话: json { "conversations": [ {"from": "system", "value": "You are an AI agent with tools..."}, {"from": "human", "value": "Read the config file"}, {"from": "gpt", "value": "Ill read that file.

tool_call {"name": "read_file", "arguments": {"path": "/etc/config.json"}} "}, {"from": "tool", "value": "{"content": "..."}"}, {"from": "gpt", "value": "Heres whats in the config: ..."} ] }

许可证

Apache 2.0 — 可自由使用该数据。

相关链接

  • https://huggingface.co/ClankLabs/Wrench-35B-A3B-Q4_K_M-GGUF
  • https://huggingface.co/ClankLabs/Wrench-9B-Q4_K_M-GGUF
  • https://github.com/ClankLabs/wrench-training-data
  • https://github.com/ClankLabs/Clank
  • https://clanklabs.dev/wrench
搜集汇总
数据集介绍
main_image_url
构建方式
在智能体工具调用领域,数据集的构建质量直接影响模型的泛化能力。Wrench Training Data的构建采用了分层设计,包含1,147个基础训练样本和105个前沿训练样本。基础数据涵盖18个类别,如工具调用、多步任务链和错误恢复等,通过JSONL格式组织,每个样本均为多轮对话,模拟真实工具交互场景。前沿数据则针对不确定性校准、约束遵循等特定行为差距进行针对性补充。所有数据均采用ShareGPT格式,确保对话结构的一致性与可扩展性。
特点
该数据集的核心特点在于其高度的结构化和场景覆盖广度。数据样本总量达1,252个,细致划分为工具调用、代理行为、多步推理等22个专项类别,每个类别均对应特定的智能体能力维度。数据集特别强调对复杂场景的建模,如长上下文多轮对话的连贯性保持、策略修订中的智能失败处理等。此外,数据格式统一且兼容主流训练框架,支持直接用于基于LoRA等参数高效微调方法的模型训练,为研究者提供了即用型的高质量语料。
使用方法
使用该数据集进行模型训练需遵循系统化的流程。用户首先需克隆代码仓库并获取全部数据文件,随后可依托云计算平台配置硬件环境,如使用配备H100 GPU的RunPod实例。训练过程通过提供的Jupyter Notebook脚本引导,支持对Qwen等基础模型进行LoRA微调,关键超参数如学习率、批次大小均已预设优化。训练完成后,模型可导出为GGUF格式,便于在Ollama或llama.cpp等推理框架中部署。整个流程兼顾了效率与复现性,使研究者能够快速构建专属的工具调用智能体。
背景与挑战
背景概述
在智能体工具调用领域,高效且可靠的模型微调是推动技术落地的关键。Wrench训练数据集由ClankLabs团队于近期构建,旨在为基于LoRA技术微调的Wrench模型系列提供高质量的指令数据。该数据集聚焦于解决智能体在复杂环境中进行多步骤工具调用、错误恢复及行为规划等核心研究问题,其构建依托于前沿的Qwen3.5系列大语言模型。通过在伯克利函数调用排行榜等标准化基准测试中展现的优异性能,该数据集及其衍生的模型为开源社区提供了可本地部署的高效智能体解决方案,显著降低了相关研究与应用的硬件门槛和成本。
当前挑战
该数据集致力于应对智能体工具调用领域的核心挑战,即如何使模型在多样化的现实场景中精准、可靠且安全地使用外部工具。具体挑战包括处理多步骤任务链的复杂规划、在工具调用失败时进行优雅的错误恢复、严格遵循系统指令与用户约束以避免行为漂移,以及在长上下文多轮对话中保持逻辑一致性。在数据构建过程中,挑战体现在高质量训练样本的规模化采集与标注,尤其是针对前沿行为差距(如不确定性校准、策略修订等)设计具有针对性的示例,并确保数据格式的统一性与工具调用语义的精确性,以支撑模型的有效泛化。
常用场景
经典使用场景
在智能体工具调用研究领域,Wrench训练数据集为构建专业化语言模型提供了核心训练素材。该数据集通过1252个精心设计的对话示例,覆盖了从基础工具调用到复杂多步推理的完整行为谱系。研究者利用这些结构化数据对Qwen等基础模型进行LoRA微调,使其能够精准理解用户指令并生成规范的工具调用序列。这种训练范式特别适用于需要模型在受限环境中执行具体操作任务的场景,例如自动化脚本生成或系统配置管理。
衍生相关工作
围绕该数据集衍生出多个具有影响力的研究方向。在模型架构方面,研究者探索了不同参数规模的适配方案,形成了从9B到35B的模型系列。评估体系上发展出包含120项指标的细粒度评测框架,并延伸至伯克利函数调用排行榜等第三方基准。工具生态建设方面,催生了Clank Gateway等智能体部署框架的完善。这些工作共同构建起从数据制备、模型训练到系统集成的完整技术栈。
数据集最近研究
最新研究方向
在智能体工具调用领域,Wrench训练数据集正推动研究向提升模型的校准与约束遵循能力发展。前沿工作聚焦于通过不确定性校准数据,教导模型在信息不足时主动验证而非盲目猜测,同时强化对用户显式约束的严格遵守,以抑制任务范围的隐性扩散。这些努力旨在弥合开源模型与顶尖闭源系统在复杂、长上下文多轮对话中的行为差距,其影响深远,为构建更可靠、可控且具备深度推理能力的自主智能体奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作