pinchbench-clawd

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/cptekur/pinchbench-clawd

下载链接

链接失效反馈

官方服务：

资源简介：

PinchBench Clawd训练数据是一个合成微调数据集，旨在训练大型语言模型（LLM）作为OpenClaw框架中的自主AI代理Clawd。数据集针对PinchBench基准测试（包含23个任务），每个样本均为多轮对话，展示Clawd如何利用文件I/O、网络搜索、电子邮件、日历、图像生成、记忆等多种工具完成现实世界任务。数据通过Anthropic Batch API生成，并经过LLM法官评分（1-5分）和质量过滤。数据集包含训练集（train.jsonl，评分≥3/5且去重）、验证集（val.jsonl）和评分反馈文件（scores.json）。生成流程采用自动化代理循环（包括评估代理、诊断代理、数据生成代理、数据策展代理和训练代理）。该数据集采用CC BY 4.0许可协议发布。

PinchBench Clawd training data is a synthetic fine-tuning dataset aimed at training large language models (LLMs) to serve as the autonomous AI agent Clawd within the OpenClaw framework. This dataset is tailored for the PinchBench benchmark, which encompasses 23 tasks. Each sample in the dataset is a multi-turn dialogue that illustrates how Clawd leverages a variety of tools including file I/O, web search, email, calendar, image generation, and memory to accomplish real-world tasks. The dataset was generated using the Anthropic Batch API, and subjected to scoring by LLM judges (1-5 points) and quality filtering. It consists of three parts: the training set (train.jsonl, with scores ≥3/5 and deduplicated), the validation set (val.jsonl), and a score feedback file (scores.json). The dataset's generation pipeline follows an automated agent loop, which includes an evaluation agent, diagnostic agent, data generation agent, data curation agent, and training agent. This dataset is released under the CC BY 4.0 license.

创建时间：

2026-03-21

原始信息汇总

PinchBench Clawd Training Data 数据集概述

基本信息

数据集名称：PinchBench Clawd Training Data
许可证：CC BY 4.0
任务类别：文本生成
语言：英语
标签：合成数据、微调、工具使用、智能体、OpenClaw、PinchBench
数据集格式：JSONL、JSON

数据集描述

该数据集是一个合成的微调数据集，用于训练大型语言模型（LLM）充当 Clawd——一个在 OpenClaw 框架上的自主AI智能体。其目标针对 PinchBench 基准测试（包含23个任务）。

每个示例都是一个多轮对话，其中Clawd使用各种工具（如文件I/O、网络搜索、电子邮件、日历、图像生成、记忆等）来完成一项现实世界任务。数据通过Anthropic Batch API使用Claude生成，由LLM评判员进行评分（1-5分），并经过质量过滤。

文件构成

train.jsonl：训练示例（评分 >= 3/5，已去重）
val.jsonl：保留的验证示例
scores.json：每个示例的LLM评判员评分和反馈

生成流程

数据通过一个智能体循环（pinchbenchmaxing）生成：

EvalAgent：在PinchBench上对模型进行基准测试
EvalAnalysisAgent：使用Claude诊断失败原因
DataAgent：基于诊断结果生成有针对性的训练数据
CuratorAgent：对数据进行评分、修复边界示例、去重，并推送至此
TrainerAgent：进行微调，然后循环重复

使用许可

本数据集根据 CC BY 4.0 许可证发布。您可以出于任何目的自由分享和改编数据，但需注明出处。

引用信息

如果使用本数据集，请引用：

@misc{pinchbench-clawd-2026, author = {Chetan Tekur}, title = {PinchBench Clawd Training Data}, year = {2026}, url = {https://huggingface.co/datasets/cptekur/pinchbench-clawd}, }

搜集汇总

数据集介绍

构建方式

在自主智能体研究领域，PinchBench Clawd训练数据集的构建体现了一种基于诊断与迭代的合成生成范式。其核心流程通过一个名为“pinchbenchmaxing”的智能体循环系统实现：首先，EvalAgent在PinchBench基准测试上评估模型性能；随后，EvalAnalysisAgent利用Claude模型对失败案例进行深度诊断；接着，DataAgent根据诊断结果生成具有针对性的训练对话数据；最后，CuratorAgent负责对生成样本进行质量评分、修复边界案例、去重并完成数据整理。整个数据生成过程依托Anthropic Batch API完成，并经过大型语言模型法官的评分筛选，确保了数据的针对性与高质量。

特点

该数据集专为训练在OpenClaw框架下运行的自主AI智能体Clawd而设计，其显著特点在于高度结构化的多轮对话形式。每个示例均模拟Clawd智能体在完成真实世界任务时，综合运用文件读写、网络搜索、电子邮件、日历管理、图像生成与记忆等多种工具的操作过程。数据集经过严格的质量控制，所有训练样本均来自大型语言模型法官评分不低于3分（满分5分）的优质数据，并进行了去重处理。此外，数据集还额外提供了每个样本的详细评分与反馈信息，为模型训练与评估提供了丰富的元数据支持。

使用方法

该数据集主要用于大型语言模型在工具使用与自主智能体行为方面的微调。研究人员可直接使用提供的train.jsonl文件进行模型训练，并利用val.jsonl文件进行验证。数据集遵循标准的JSON Lines格式，便于集成到现有的机器学习管道中。在使用时，建议用户关注数据集中包含的工具调用序列与任务完成逻辑，以优化模型对复杂、多步骤指令的理解与执行能力。该数据集的发布遵循CC BY 4.0许可协议，允许在注明出处的前提下自由分享与改编，适用于广泛的学术与工业应用场景。

背景与挑战

背景概述

在人工智能领域，尤其是大型语言模型（LLM）向自主智能体发展的进程中，如何有效训练模型掌握复杂工具使用能力成为关键研究方向。PinchBench Clawd训练数据集应运而生，由研究人员Chetan Tekur于2026年创建，旨在为OpenClaw框架下的自主AI代理Clawd提供高质量的合成微调数据。该数据集聚焦于解决LLM在真实世界多任务场景中工具调用能力的核心问题，涵盖文件操作、网络搜索、邮件处理、日程管理、图像生成等23项PinchBench基准任务，通过结构化对话形式推动智能体工具使用技术的发展，对增强LLM的实际应用能力具有显著影响力。

当前挑战

该数据集致力于攻克自主智能体在多模态工具协同使用方面的核心挑战，即如何使LLM在复杂、动态的真实任务环境中，准确理解用户意图并序列化调用多样化工具。在构建过程中，面临合成数据质量控制的严峻考验：需通过多智能体循环系统实现任务诊断、针对性数据生成、LLM评分筛选及去重等环节，确保生成对话的逻辑连贯性与工具使用合理性；同时，保持任务覆盖的广度与深度平衡，避免数据偏差，以支撑模型在PinchBench基准上的全面性能提升。

常用场景

经典使用场景

在自主智能代理领域，PinchBench Clawd训练数据集主要用于微调大型语言模型，使其能够扮演Clawd代理角色，在OpenClaw框架内执行多轮对话任务。该数据集通过模拟真实世界场景，如文件操作、网络搜索、邮件处理和日程管理等，训练模型熟练运用各类工具链，以完成PinchBench基准测试涵盖的23项复杂任务，为评估和提升代理的通用问题解决能力提供了标准化训练环境。

衍生相关工作

围绕该数据集衍生的经典工作主要包括OpenClaw框架的生态扩展和PinchBench评估体系的完善。例如，配套工具链pinchbenchmaxing实现了从评估诊断到数据生成的自动化循环，为迭代式代理训练提供了方法论范例；同时，基于Clawd代理的微调策略和工具增强技术，进一步催生了面向复杂交互任务的模型优化研究，促进了自主代理领域开源工具链和基准测试的协同发展。

数据集最近研究