five

ClawGym-SynData

收藏
arXiv2026-04-30 更新2026-05-01 收录
下载链接:
https://github.com/ClawGym
下载链接
链接失效反馈
官方服务:
资源简介:
ClawGym-SynData是由中国人民大学高瓴人工智能学院联合IQuest Research等机构构建的大规模合成数据集,包含1.35万条经过筛选的Claw风格任务数据。该数据集通过双通道生成策略(角色驱动自上而下与技能锚定自下而上)构建,涵盖多步骤文件操作、工具调用及工作空间状态更新,并配备模拟工作环境资源和混合验证机制(代码检查与规则评估)。其数据来源于个性化用户画像与原子技能组合,旨在解决环境感知型智能代理在复杂数字工作流中的训练数据稀缺问题,支持OpenClaw框架下的代理开发与评估。
提供机构:
中国人民大学·高瓴人工智能学院; IQuest Research; 北京航空航天大学
创建时间:
2026-04-30
搜集汇总
数据集介绍
main_image_url
构建方式
ClawGym-SynData的构建遵循一套系统化的双路径合成策略。其一为角色驱动自上而下的合成管道,通过融合用户画像、场景类别与原子操作集合,生成根植于多样化用户需求的高层任务种子,再由大语言模型将其扩展为具体的多步指令。其二为技能驱动自下而上的合成管道,从OpenClaw技能库中筛选出可合成技能,组合成由主技能与辅助技能构成的实操性工作流。两类任务均配备由代码生成器自动创建的轻量级模拟工作空间文件,并配套混合验证机制——兼顾确定性代码检查与定性评分准则,最终经过自动化质量筛选,保留约13.5K条高质量任务样本。
特点
该数据集的核心特质在于其兼具场景广度与操作真实感。角色驱动管道产出的任务覆盖9大类43子类场景,原子操作分布均衡;技能驱动管道则锚定于26种可执行操作,涵盖文件处理、数据分析和网页交互等典型爪式行为。混合验证机制将客观的代码化验证点与主观的评分准则相结合,前者检查文件存在性、数据正确性等确定性条件,后者评估语气严谨性、报告完整性等质性维度。自动化质量评估进一步过滤冗余、不可行或校准不佳的样本,确保任务的新颖性、合理性与难度适宜,最终形成多样性、可复现且验证可靠的训练数据池。
使用方法
ClawGym-SynData主要用于训练爪式计算型个人代理。研究者将其作为监督微调的标注数据来源:通过在OpenClaw环境中进行大规模黑盒轨迹采集,获得包含多轮交互与工具调用的高质量轨迹,经奖励阈值筛选后用于训练代理模型。数据集的每个任务实例内含用户指令、模拟工作空间文件与对应验证器,用户可直接部署任务至OpenClaw容器进行执行,并调用附带代码检查器与评分准则自动评估完成度。该数据集亦支持强化学习场景,可构建沙箱并行回滚管道,以结果奖励信号驱动策略优化,无需过程级监督。
背景与挑战
背景概述
ClawGym-SynData数据集由中国人民大学高瓴人工智能学院联合北京航空航天大学及IQuest Research于2026年提出,旨在攻克Claw风格个人智能体开发中的数据稀缺瓶颈。该类智能体不同于传统对话式系统,需在本地工作区中执行多步骤操作,如文件管理、工具调用与持久化环境交互。然而,现有研究缺乏大规模的、可验证的、面向工作区交互的合成数据。为此,研究团队基于双路径合成策略——自上而下的角色驱动任务生成与自下而上的技能组合——构建了涵盖13.5K个高质量任务的数据库,为Claw智能体的训练与评估提供了坚实的数据基础,在个人智能体领域具有开创性影响力。
当前挑战
该数据集面临的挑战体现在两个层面。在领域问题层面,Claw任务迥异于静态文本推理或结构化智能体基准,其核心难点在于智能体需在模糊指令、不可预见的操作错误及长期依赖的跨会话场景中完成环境接地式推理,这要求模型不仅具备工具选择与多步规划能力,更需拥有鲁棒的错误恢复与细粒度指令追随能力。在构建层面,大规模合成面临三重困境:如何捕捉跨职业与日常场景的个性化需求以覆盖现实分布,如何针对长链条操作设计可靠的自动验证机制,以及如何生成兼顾真实感与可执行性的模拟工作区文件。此外,确保合成任务的新颖性、可行性与校验器的一致性亦构成显著工程挑战。
常用场景
经典使用场景
ClawGym-SynData作为首个大规模合成的爪式(Claw-style)智能体训练数据集,其最经典的使用场景在于为环境具身化的个人助手模型提供高质量的监督微调数据。该数据集包含13.5K经过滤的可执行任务,覆盖从日常文件整理、信息提取、文档编辑到报告生成与软件配置等多样化工作流。研究者可借助该数据集对基础大语言模型进行多轮对话式微调,使其掌握在开放工作空间中调用工具、管理文件系统及执行多步操作的核心能力,进而构建出能够胜任真实数字生活场景的自主智能体。
衍生相关工作
基于ClawGym-SynData衍生了一系列极具影响力的相关工作,包括ClawGym-Agents智能体模型族与ClawGym-Bench评估基准。ClawGym-Agents通过大规模黑盒轨迹收集与监督微调,产出了Qwen3系列的多款专用爪式智能体,并进一步探索了基于沙箱并行的轻量级强化学习管线。ClawGym-Bench则通过难度感知过滤与人工-大模型联合审核,构建了包含200个高质量实例的评测基准,揭示了不同规模智能体在工具调用恰当性、长程执行鲁棒性及细粒度指令遵循等多维能力上的差异,为后续研究提供了可靠的评估平台。
数据集最近研究
最新研究方向
在个人代理(personal agent)日益融入日常数字化生活的背景下,ClawGym-SynData 数据集聚焦于 Claw 风格环境下多步骤、工作区驱动的指令执行任务合成与智能体训练。前沿研究围绕两大核心展开:其一,通过人物驱动(persona-driven)的顶层设计和技能驱动(skill-grounded)的底层组合,实现大规模、高多样性的可验证合成数据生成,解决现有工作缺乏系统化框架与高质量训练数据的瓶颈;其二,探索将合成数据与黑盒 rollout 轨迹的监督微调(SFT)及轻量级沙盒并行强化学习(RL)相结合的训练范式,显著提升紧凑型语言模型在真实 Claw 环境中的工具调用、长程执行鲁棒性与细粒度指令遵循能力。该数据集的发布与 ClawGym-Agents 的突破性表现,标志着从静态推理基准向工作区锚定、环境交互式智能体评估演进的关键里程碑,为构建语义一致、可扩展且具备泛化能力的自主代理奠定了数据与训练框架基础。
相关研究论文
  • 1
    ClawGym: A Scalable Framework for Building Effective Claw Agents中国人民大学·高瓴人工智能学院; IQuest Research; 北京航空航天大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作