ClawGym-Task

Hugging Face2026-05-16 更新2026-05-17 收录

下载链接：

https://huggingface.co/datasets/RUC-AIBOX/ClawGym-Task

下载链接

链接失效反馈

官方服务：

资源简介：

ClawGym-SynData是一个包含13,500个可执行Claw风格任务的数据集。该数据集通过两种合成路径构建：一是人物角色驱动的合成，通过采样用户画像、场景类别和原子操作来生成基于现实工作空间的请求；二是技能基础合成，基于OpenClaw技能构建任务，使用一个主要技能和可选的支持技能来鼓励多步骤工作流。任务生成过程覆盖9个主要场景类别、43个子类别、7个操作类别和26个原子操作。在技能基础合成部分，数据集标注了16,837个收集的技能，涵盖数据与API、开发工具、工作流、自动化、安全、提示词、MCP工具等多个类别。该数据集适用于训练和评估AI助手在执行复杂、多步骤工作空间任务方面的能力。

ClawGym-SynData is a dataset containing 13,500 executable Claw-style tasks. It is constructed through two synthetic pathways: one is character-driven synthesis, which generates requests based on real-world workspaces by sampling user profiles, scene categories, and atomic operations; the other is skill-based synthesis, which builds tasks based on OpenClaw skills, using a primary skill and optional supporting skills to encourage multi-step workflows. The task generation process covers 9 main scene categories, 43 subcategories, 7 operation categories, and 26 atomic operations. In the skill-based synthesis part, the dataset annotates 16,837 collected skills, covering categories such as Data & API, development tools, workflows, automation, security, prompts, and MCP tools. This dataset is suitable for training and evaluating AI assistants in performing complex, multi-step workspace tasks.

创建时间：

2026-05-15

原始信息汇总

数据集概述：RUC-AIBOX/ClawGym-Task

ClawGym-SynData 是一个包含 13,500 个可执行 Claw 风格任务的合成数据集。

数据生成方法

该数据集通过两条合成路线构建：

角色驱动合成（Persona-driven synthesis）：通过采样用户画像、场景类别和原子操作，生成基于工作空间的真实请求。
技能驱动合成（Skill-grounded synthesis）：基于 OpenClaw 技能，使用一个主要技能并可选配辅助技能，构建支持多步骤工作流的任务。

数据覆盖范围

场景类别：覆盖 9 个场景大类，细分为 43 个子类别。
操作类别：涵盖 7 个操作大类，包含 26 种原子操作。
技能标注：针对技能驱动合成，为 16,837 个收集到的技能进行了标注，技能类别包括：
- 数据与 API (Data & APIs)
- 开发工具 (Dev Tools)
- 工作流 (Workflows)
- 自动化 (Automation)
- 安全 (Security)
- 提示 (Prompts)
- MCP 工具 (MCP Tools)
- 其他 (Others)

搜集汇总

数据集介绍

构建方式

ClawGym-Task数据集的构建融合了两种精细化的合成路径：人物驱动合成与技能驱动合成。前者通过采样用户画像、场景类别及原子操作，生成植根于真实工作空间的请求；后者则依托OpenClaw技能体系，以一项主要技能为核心，辅以可选的支持性技能，鼓励多步骤工作流的形成。任务生成过程覆盖了9大场景类别、43个子类别、7种操作类别及26种原子操作，确保了任务的多样性与复杂性。

使用方法

使用ClawGym-Task数据集时，可将其作为多步骤工作流自动化系统的基准测试平台。用户可直接利用其内置的任务描述与原子操作组合，评估AI代理在复杂指令理解与执行上的能力。数据集中的任务格式统一，便于加载与解析，支持直接用于模型的训练、验证与测试环节，尤其适合需要多步骤推理与工具调用的场景，为研究智能体在真实世界任务中的表现提供了标准化的测试集。

背景与挑战

背景概述

ClawGym-Task数据集的诞生源于大语言模型在工具调用与任务规划领域对高质量训练数据日益增长的需求。该数据集由相关研究团队于近期创建，聚焦于Claw风格任务这一特定范式，通过合成路线生成13.5K个可执行任务实例。核心研究问题在于如何为模型提供多样化、结构化且真实感强的任务样本，以提升其在多步工作流、工具调用链等复杂场景下的泛化能力。涵盖9个场景类别、43个子类别及26种原子操作的设计，使其成为评估和微调模型任务理解与执行能力的重要基准，对推动工具增强型智能体研究具有显著影响力。

当前挑战

ClawGym-Task主要应对的领域挑战包括大语言模型在真实世界任务规划中的结构性缺陷，例如对多步骤推理失败、工具调用顺序混淆以及场景适应性不足。其构建过程亦面临双重困难：一是人物驱动合成中如何确保用户画像、场景类别与原子操作的组合既多样又符合实际工作空间约束；二是技能驱动合成需从16,837个标注技能中合理选取主技能与辅助技能，以生成鼓励多步流程的任务，这对技能种类间的依赖关系建模和冲突消解提出了高要求。

常用场景

经典使用场景

ClawGym-Task数据集的核心用途在于为具身智能体在数字化工作空间中的任务执行提供高质量的基准训练与评估语料。其融合了角色驱动合成与技能驱动合成两条技术路径，生成了涵盖9大场景类别、43个子类别及26种原子操作的多样化任务指令。这些指令不仅模拟了真实用户的意图表达，还通过多步骤工作流的设计考验智能体的长期规划与工具调用能力。研究者常利用该数据集训练大语言模型驱动的智能助手，使其能够理解复杂的上下文并执行诸如API调用、自动化脚本编写、数据检索等具体操作，进而提升在办公自动化、软件开发和系统管理等领域中的任务完成效率。

解决学术问题

该数据集有效缓解了当前具身智能领域缺乏大规模、细粒度、可执行任务基准的困境。传统的任务数据集往往局限于单一场景或简单指令，难以全面评估智能体在跨域、多步骤协作中的泛化性能。ClawGym-SynData通过精细化的操作层级设计，解决了任务分解、技能组合与意图对齐等核心学术难题。它为验证模型在零样本迁移、长序列规划及异常恢复等研究方向上的突破提供了标准化测试平台，推动了人机协作任务规划理论从概念验证向实用化阶段迈进，尤其在探究知识与动作如何高效映射方面具有里程碑式的学术价值。

实际应用

在实际部署中，ClawGym-Task数据集构成了一站式智能工作流助手的训练基石。企业可基于该数据微调数字员工，使其在客户服务系统中自动完成工单分发与FAQ回复，在研发平台中实现代码审查与持续集成流水线触发。对于个人用户而言，基于该数据集训练的代理能够集成至操作系统层面，协助管理日程、筛选邮件及监控系统日志。此外，在低代码开发环境中，它能根据用户模糊的需求描述生成可执行的自动化规则，显著降低软件使用门槛。该数据集还赋能了Robotic Process Automation领域的升级，使脚本录制工具具备了对非结构化指令的理解能力。

数据集最近研究