Wrench Training Data
收藏Wrench Training Data 数据集概述
数据集简介
该数据集是用于训练 Wrench 系列模型(一组专为智能体工具调用而构建的LoRA微调模型)的训练数据和相关笔记本。
模型信息
| 模型 | 基础模型 | 分数 | 显存需求 | 下载地址 |
|---|---|---|---|---|
| Wrench 35B v7 | Qwen3.5-35B-A3B (MoE) | 118/120 (98.3%) | 16GB | https://huggingface.co/ClankLabs/Wrench-35B-A3B-Q4_K_M-GGUF |
| Wrench 9B v4 | Qwen3.5-9B (dense) | 114/120 (95.0%) | 8GB | https://huggingface.co/ClankLabs/Wrench-9B-Q4_K_M-GGUF |
性能评估
基准测试结果
| 模型 | Clank Benchmark | BFCL (non_live) | 运行环境 | 成本 |
|---|---|---|---|---|
| Wrench 35B v7 | 118/120 | 82.0% | 16GB GPU | 免费 |
| Claude Opus 4.6 | ~118/120 | — | 云端 | 付费 |
| GPT-5.2 | ~116/120 | — | 云端 | $20/月 |
| Claude Sonnet 4.6 | ~114/120 | — | 云端 | $20/月 |
| Wrench 35B v5 | 113/120 | — | 16GB GPU | 免费 |
| GPT-4o | ~110/120 | — | 云端 | $20/月 |
| Wrench 9B v4 | 114/120 | — | 8GB GPU | 免费 |
BFCL 详细结果 (Wrench 35B)
| 类别 | 准确率 | 正确/总数 |
|---|---|---|
| Simple (Python) | 84.75% | 339/400 |
| Simple (Java) | 44.0% | 44/100 |
| Simple (JavaScript) | 56.0% | 28/50 |
| Multiple | 84.5% | 169/200 |
| Parallel | 85.0% | 170/200 |
| Parallel Multiple | 82.5% | 165/200 |
| Irrelevance Detection | 88.75% | 213/240 |
| 总计 | 82.0% | 1128/1390 |
分类别详细结果 (35B)
| 类别 | v5 | v7 | 变化 |
|---|---|---|---|
| Basic Tool Use | 15/15 | 15/15 | — |
| Multi-Step Tasks | 14/15 | 15/15 | +1 |
| Error Recovery | 13/15 | 14/15 | +1 |
| Response Quality | 15/15 | 15/15 | — |
| System Prompt Following | 14/15 | 14/15 | — |
| Planning & Reasoning | 14/15 | 15/15 | +1 |
| Tool Format Correctness | 13/15 | 15/15 | +2 |
| Safety & Restraint | 15/15 | 15/15 | — |
| 总计 | 113/120 | 118/120 | +5 |
数据集内容结构
wrench-training-data/ ├── datasets/ # 1,147 个基础训练示例 (18 个 JSONL 文件) │ ├── tool-calling.jsonl │ ├── agent-behavior.jsonl │ ├── multi-step-chains.jsonl │ ├── error-recovery.jsonl │ ├── ... (共 18 个文件) │ └── sub-agent-roles.jsonl ├── datasets-frontier/ # 105 个前沿差距训练示例 (4 个 JSONL 文件) │ ├── uncertainty-calibration.jsonl # 25 — 在猜测前验证 │ ├── constraint-following.jsonl # 25 — 严格按照要求执行 │ ├── strategy-revision.jsonl # 20 — 智能失败,调整而非重试 │ └── long-context-multiturn.jsonl # 35 — 在 20+ 轮对话中保持连贯性 ├── notebooks/ │ ├── train.ipynb # 35B 训练笔记本 (RunPod 2x H100) │ └── train-8b.ipynb # 9B 训练笔记本 (RunPod 1x H100) ├── benchmark.md # 120 点评分标准 (8 个类别) └── README.md
数据集细分
基础数据 (1,147 个示例)
| 数据集 | 示例数量 | 描述 |
|---|---|---|
| advanced-coding-2 | 92 | 涉及工具使用的复杂编码任务 |
| agent-behavior | 92 | 通用智能体行为模式 |
| coding-knowledge | 91 | 代码理解和生成 |
| concise-direct | 91 | 简洁、无冗余的回应 |
| debugging-mastery | 91 | 使用工具进行系统性调试 |
| error-recovery | 91 | 优雅处理工具故障 |
| knowing-when-to-stop | 91 | 避免不必要的额外步骤 |
| multi-step-chains | 91 | 读取 -> 编辑 -> 验证序列 |
| sub-agents | 91 | 委托给子智能体 |
| system-prompt-following | 91 | 遵守系统提示约束 |
| tool-calling | 91 | 核心 ReAct 工具调用格式 |
| always-use-tools | 30 | 对事实查询使用工具,绝不产生幻觉 |
| multi-step-chains-v2 | 30 | 包含真实工具结果的多轮完整链 |
| destructive-action-caution | 20 | 在破坏性操作前警告 |
| tool-restraint | 30 | 何时不使用工具 |
| workflow-composition | 30 | 多工具工作流模式 |
| sub-agent-roles | 20 | 基于角色的子智能体使用 |
| 小计 | 1,147 |
前沿数据 (105 个示例 — v7 新增)
旨在弥补本地模型与前沿模型之间特定行为差距的针对性训练数据。
| 数据集 | 示例数量 | 描述 |
|---|---|---|
| uncertainty-calibration | 25 | 表达不确定性,在行动前使用工具验证 |
| constraint-following | 25 | 严格遵守用户约束,抵制范围蔓延 |
| strategy-revision | 20 | 分析失败原因并改变方法,而非盲目重试 |
| long-context-multiturn | 35 | 在 10-20+ 轮对话中保持连贯性 |
| 小计 | 105 |
总计: 1,252 个示例
训练详情
Wrench 35B (v7 — 当前版本)
- 基础模型: Qwen3.5-35B-A3B (MoE, 30亿活跃参数)
- 方法: LoRA (秩 64, alpha 128),通过 HuggingFace PEFT + Trainer
- 硬件: 2x NVIDIA H100 80GB (RunPod)
- 训练时间: 每次运行约 1 小时
- 超参数: batch_size=1, gradient_accumulation=8, 2 个周期, lr=1e-4
- 最终损失: 0.1592
- 输出格式: GGUF Q4_K_M (~20GB,需 16GB 显存)
Wrench 9B (v4 — 当前版本)
- 基础模型: Qwen3.5-9B (密集)
- 方法: LoRA (秩 32, alpha 64),通过 HuggingFace PEFT + Trainer
- 硬件: 1x NVIDIA H100 80GB (RunPod)
- 训练时间: 每次运行约 30 分钟
- 超参数: batch_size=1, gradient_accumulation=8, 2 个周期, lr=1e-4
- 示例数量: 1,356 (1,251 基础 + 105 前沿)
- 最终损失: 0.1512
- 输出格式: GGUF Q4_K_M (~5GB,需 8GB 显存)
数据格式
ShareGPT 格式 — 每个示例都是一个包含工具调用的多轮对话: json { "conversations": [ {"from": "system", "value": "You are an AI agent with tools..."}, {"from": "human", "value": "Read the config file"}, {"from": "gpt", "value": "Ill read that file.
tool_call {"name": "read_file", "arguments": {"path": "/etc/config.json"}} "}, {"from": "tool", "value": "{"content": "..."}"}, {"from": "gpt", "value": "Heres whats in the config: ..."} ] }
许可证
Apache 2.0 — 可自由使用该数据。
相关链接
- https://huggingface.co/ClankLabs/Wrench-35B-A3B-Q4_K_M-GGUF
- https://huggingface.co/ClankLabs/Wrench-9B-Q4_K_M-GGUF
- https://github.com/ClankLabs/wrench-training-data
- https://github.com/ClankLabs/Clank
- https://clanklabs.dev/wrench




