cptekur/pinchbench-clawd

Name: cptekur/pinchbench-clawd
Creator: cptekur
Published: 2026-03-28 14:32:47
License: 暂无描述

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/cptekur/pinchbench-clawd

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 task_categories: - text-generation language: - en tags: - synthetic - fine-tuning - tool-use - agent - openclaw - pinchbench pretty_name: PinchBench Clawd Training Data --- # PinchBench Clawd Training Data Synthetic fine-tuning dataset for training an LLM to act as **Clawd**, an autonomous AI agent on the [OpenClaw](https://openclaw.ai) framework. Targets the [PinchBench](https://pinchbench.com) benchmark (23 tasks). ## Dataset Description Each example is a multi-turn conversation where Clawd uses tools (file I/O, web search, email, calendar, image generation, memory, etc.) to complete a real-world task. Generated using Claude via the Anthropic Batch API, scored by an LLM judge (1-5), and filtered for quality. - **train.jsonl** — training examples (score >= 3/5, deduplicated) - **val.jsonl** — held-out validation examples - **scores.json** — per-example LLM judge scores and feedback ## Generation Pipeline Data is generated by an agentic loop ([pinchbenchmaxing](https://github.com/ChetanTekur/pinchbenchmaxing)): 1. **EvalAgent** benchmarks the model on PinchBench 2. **EvalAnalysisAgent** diagnoses failures using Claude 3. **DataAgent** generates targeted training data based on the diagnosis 4. **CuratorAgent** scores, repairs borderline examples, deduplicates, and pushes here 5. **TrainerAgent** fine-tunes and the loop repeats ## License This dataset is released under [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/). You are free to share and adapt the data for any purpose, provided you give attribution. ## Citation If you use this dataset, please cite: ``` @misc{pinchbench-clawd-2026, author = {Chetan Tekur}, title = {PinchBench Clawd Training Data}, year = {2026}, url = {https://huggingface.co/datasets/cptekur/pinchbench-clawd}, } ```

提供机构：

cptekur

搜集汇总

数据集介绍

构建方式

在人工智能代理领域，为提升模型在复杂任务中的工具调用能力，PinchBench Clawd训练数据集的构建采用了系统化的合成生成流程。该流程以PinchBench基准的23项任务为目标，通过一个名为“pinchbenchmaxing”的代理循环实现。具体而言，首先由EvalAgent对模型进行基准评估，随后EvalAnalysisAgent利用Claude模型诊断失败案例，DataAgent则基于诊断结果生成针对性的多轮对话训练数据。生成的数据经由CuratorAgent进行质量评分、修复边界样本、去重等严格筛选，最终形成包含训练集和验证集的高质量语料。整个生成过程依托Anthropic Batch API完成，并辅以LLM评委进行1至5分的评分与反馈，确保了数据的可靠性与针对性。

特点

该数据集的核心特点在于其高度结构化的多轮对话形式与丰富的工具使用场景。每个示例模拟了自主AI代理Clawd在OpenClaw框架下执行现实任务的过程，涵盖了文件读写、网络搜索、电子邮件处理、日历管理、图像生成与记忆调用等多种工具操作。数据经过严格的质量过滤，仅保留评分不低于3分的样本，并进行了去重处理，从而保障了训练样本的纯净度与有效性。此外，数据集附带的评分与反馈文件为研究者提供了细致的性能分析依据，使其不仅适用于模型微调，也能服务于代理行为的评估与诊断。

使用方法

为有效利用该数据集进行模型训练，用户可直接加载提供的JSON Lines格式文件。训练集（train.jsonl）适用于对大型语言模型进行监督式微调，以增强其作为自主代理在OpenClaw框架下的工具使用与任务完成能力。验证集（val.jsonl）可用于在训练过程中监控模型性能，防止过拟合。研究者可依据附带的评分数据（scores.json）进一步分析模型在不同任务或对话轮次上的表现差异，从而优化训练策略或进行针对性数据增强。该数据集遵循CC BY 4.0许可协议，允许在注明出处的前提下自由共享与改编，适用于学术研究及商业开发等多种场景。

背景与挑战

背景概述

在人工智能领域，大型语言模型（LLM）作为自主智能体执行复杂任务的能力日益成为研究焦点。PinchBench-Clawd数据集由研究人员Chetan Tekur于2026年创建，旨在为OpenClaw框架下的Clawd自主AI代理提供合成微调数据。该数据集的核心研究问题聚焦于通过多轮对话模拟真实世界任务，训练LLM熟练运用文件I/O、网络搜索、电子邮件、日历、图像生成等多种工具，从而提升智能体在PinchBench基准测试（涵盖23项任务）中的性能。其生成流程融合了评估、诊断、数据合成与精细筛选的自动化循环，为智能体工具使用与任务规划研究提供了高质量、结构化的训练资源，推动了自主AI代理在复杂环境中的适应性发展。

当前挑战

PinchBench-Clawd数据集致力于解决自主AI代理在多样化工具使用与多步骤任务规划中的核心挑战，其目标在于克服智能体在动态环境中协调多种工具、维持对话连贯性以及高效完成复杂指令的困难。在构建过程中，数据集面临合成数据质量控制的严峻考验，需通过LLM法官评分（1-5分）与去重机制确保示例的可靠性与多样性；同时，生成流程依赖Claude模型与自动化代理循环，涉及故障诊断、针对性数据生成与边界案例修复等多个环节，对流程的稳定性与迭代效率提出了较高要求。这些挑战共同塑造了数据集在推动智能体泛化能力与鲁棒性研究中的关键价值。

常用场景

经典使用场景

在人工智能代理研究领域，PinchBench Clawd Training Data 数据集主要用于训练大型语言模型（LLM）执行复杂任务。该数据集通过多轮对话模拟真实场景，其中代理 Clawd 需调用文件读写、网络搜索、电子邮件、日历管理及图像生成等多种工具，以完成涵盖 23 项任务的 PinchBench 基准测试。这种设计使得模型能够在交互式环境中学习工具使用策略，提升其在开放世界任务中的自主性和适应性，为代理智能体的微调提供了高质量、结构化的训练资源。

实际应用

在实际应用中，PinchBench Clawd 数据集能够支持开发高效的个人助理或企业自动化系统。基于 OpenClaw 框架训练的代理可集成到日常办公流程中，自动处理文件管理、信息检索、日程安排及通信等任务，显著提升工作效率。此外，该数据集还可用于构建智能客服或教育辅助工具，通过模拟人类与工具的交互，实现更自然、可靠的多模态任务执行，为实际部署中的智能代理系统提供稳健的底层能力支撑。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在代理微调与基准测试优化方面。例如，开源项目 pinchbenchmaxing 实现了一个完整的代理循环，包括评估、诊断、数据生成与训练等模块，为后续研究提供了可复现的管道。同时，基于 PinchBench 基准的扩展研究不断涌现，探索了更复杂的工具组合与任务场景，进一步推动了自主代理在长程规划、错误恢复及多代理协作等方向的发展，形成了以数据为中心的人工智能代理研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集