ClawGym-SynData

Name: ClawGym-SynData
Creator: 中国人民大学·高瓴人工智能学院; IQuest Research; 北京航空航天大学
Published: 2026-04-30 01:12:22
License: 暂无描述

arXiv2026-04-30 更新2026-05-01 收录

下载链接：

https://github.com/ClawGym

下载链接

链接失效反馈

官方服务：

资源简介：

ClawGym-SynData是由中国人民大学高瓴人工智能学院联合IQuest Research等机构构建的大规模合成数据集，包含1.35万条经过筛选的Claw风格任务数据。该数据集通过双通道生成策略（角色驱动自上而下与技能锚定自下而上）构建，涵盖多步骤文件操作、工具调用及工作空间状态更新，并配备模拟工作环境资源和混合验证机制（代码检查与规则评估）。其数据来源于个性化用户画像与原子技能组合，旨在解决环境感知型智能代理在复杂数字工作流中的训练数据稀缺问题，支持OpenClaw框架下的代理开发与评估。

提供机构：

中国人民大学·高瓴人工智能学院; IQuest Research; 北京航空航天大学

创建时间：

2026-04-30

搜集汇总

数据集介绍

构建方式

ClawGym-SynData的构建遵循一套系统化的双路径合成策略。其一为角色驱动自上而下的合成管道，通过融合用户画像、场景类别与原子操作集合，生成根植于多样化用户需求的高层任务种子，再由大语言模型将其扩展为具体的多步指令。其二为技能驱动自下而上的合成管道，从OpenClaw技能库中筛选出可合成技能，组合成由主技能与辅助技能构成的实操性工作流。两类任务均配备由代码生成器自动创建的轻量级模拟工作空间文件，并配套混合验证机制——兼顾确定性代码检查与定性评分准则，最终经过自动化质量筛选，保留约13.5K条高质量任务样本。

特点

该数据集的核心特质在于其兼具场景广度与操作真实感。角色驱动管道产出的任务覆盖9大类43子类场景，原子操作分布均衡；技能驱动管道则锚定于26种可执行操作，涵盖文件处理、数据分析和网页交互等典型爪式行为。混合验证机制将客观的代码化验证点与主观的评分准则相结合，前者检查文件存在性、数据正确性等确定性条件，后者评估语气严谨性、报告完整性等质性维度。自动化质量评估进一步过滤冗余、不可行或校准不佳的样本，确保任务的新颖性、合理性与难度适宜，最终形成多样性、可复现且验证可靠的训练数据池。

使用方法

ClawGym-SynData主要用于训练爪式计算型个人代理。研究者将其作为监督微调的标注数据来源：通过在OpenClaw环境中进行大规模黑盒轨迹采集，获得包含多轮交互与工具调用的高质量轨迹，经奖励阈值筛选后用于训练代理模型。数据集的每个任务实例内含用户指令、模拟工作空间文件与对应验证器，用户可直接部署任务至OpenClaw容器进行执行，并调用附带代码检查器与评分准则自动评估完成度。该数据集亦支持强化学习场景，可构建沙箱并行回滚管道，以结果奖励信号驱动策略优化，无需过程级监督。

背景与挑战

背景概述

ClawGym-SynData数据集由中国人民大学高瓴人工智能学院联合北京航空航天大学及IQuest Research于2026年提出，旨在攻克Claw风格个人智能体开发中的数据稀缺瓶颈。该类智能体不同于传统对话式系统，需在本地工作区中执行多步骤操作，如文件管理、工具调用与持久化环境交互。然而，现有研究缺乏大规模的、可验证的、面向工作区交互的合成数据。为此，研究团队基于双路径合成策略——自上而下的角色驱动任务生成与自下而上的技能组合——构建了涵盖13.5K个高质量任务的数据库，为Claw智能体的训练与评估提供了坚实的数据基础，在个人智能体领域具有开创性影响力。

当前挑战

该数据集面临的挑战体现在两个层面。在领域问题层面，Claw任务迥异于静态文本推理或结构化智能体基准，其核心难点在于智能体需在模糊指令、不可预见的操作错误及长期依赖的跨会话场景中完成环境接地式推理，这要求模型不仅具备工具选择与多步规划能力，更需拥有鲁棒的错误恢复与细粒度指令追随能力。在构建层面，大规模合成面临三重困境：如何捕捉跨职业与日常场景的个性化需求以覆盖现实分布，如何针对长链条操作设计可靠的自动验证机制，以及如何生成兼顾真实感与可执行性的模拟工作区文件。此外，确保合成任务的新颖性、可行性与校验器的一致性亦构成显著工程挑战。

常用场景

经典使用场景

ClawGym-SynData作为首个大规模合成的爪式（Claw-style）智能体训练数据集，其最经典的使用场景在于为环境具身化的个人助手模型提供高质量的监督微调数据。该数据集包含13.5K经过滤的可执行任务，覆盖从日常文件整理、信息提取、文档编辑到报告生成与软件配置等多样化工作流。研究者可借助该数据集对基础大语言模型进行多轮对话式微调，使其掌握在开放工作空间中调用工具、管理文件系统及执行多步操作的核心能力，进而构建出能够胜任真实数字生活场景的自主智能体。

衍生相关工作

基于ClawGym-SynData衍生了一系列极具影响力的相关工作，包括ClawGym-Agents智能体模型族与ClawGym-Bench评估基准。ClawGym-Agents通过大规模黑盒轨迹收集与监督微调，产出了Qwen3系列的多款专用爪式智能体，并进一步探索了基于沙箱并行的轻量级强化学习管线。ClawGym-Bench则通过难度感知过滤与人工-大模型联合审核，构建了包含200个高质量实例的评测基准，揭示了不同规模智能体在工具调用恰当性、长程执行鲁棒性及细粒度指令遵循等多维能力上的差异，为后续研究提供了可靠的评估平台。

数据集最近研究