shl0ms/skill-diffs
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/shl0ms/skill-diffs
下载链接
链接失效反馈官方服务:
资源简介:
skill-diffs数据集是从公开GitHub仓库中抓取的代理技能(`SKILL.md`文件)的逐次提交修订历史。每个记录都是一个(之前,之后,意图)三元组,记录了人类反馈如何迭代改进技能。数据集包含五个parquet文件,分别记录了所有提交记录、清理后的差异对、初始技能提交、每个技能文件夹的捆绑文件以及仓库的元数据。数据集适用于DPO/偏好对训练、指令调整技能编辑器、模式挖掘、初始状态生成和完整技能基础等用途。
The skill-diffs dataset is a commit-by-commit revision history of agent skills (`SKILL.md` files) scraped from public GitHub repos. Each record is a (before, after, intent) tuple capturing how a skill was iteratively refined through human feedback. The dataset includes five parquet files: all commit-by-commit records, cleaned diff pairs, initial skill commits, bundled files for each skill folder, and repository metadata. It is suitable for DPO/preference-pair training, instruction-tuned skill editors, pattern mining, initial-state generation, and complete-skill grounding.
提供机构:
shl0ms
搜集汇总
数据集介绍

构建方式
skill-diffs数据集通过遍历公开GitHub仓库中代理技能文件(SKILL.md)的完整git提交历史构建,覆盖Anthropic Claude、OpenClaw、OpenCode和Hermes Agent四大平台。每条记录以(修改前,修改后,修改意图)三元组形式捕捉技能在人工反馈下的迭代精炼过程。数据采集依赖MinHash近似去重与BAAI/bge-small-en-v1.5语义聚类(余弦阈值0.85),结合结构化的diff_summary字段标注编辑类型,并利用PR标题/正文元数据丰富意图标签。最终产出约98.6万条原始记录,经多级质量过滤后形成13万条干净差异对及7.5万条策展训练子集。
特点
该数据集具备多维度结构化特性:涵盖986,515条提交记录,每项包含完整的文本内容、提交元数据、意图分类及质量标签;引入PR关联信息显著增强意图描述的丰富性;双重去重机制(MinHash与语义聚类)有效消除分叉与独立复现的冗余;diff_summary字段提供细粒度编辑类型区分;aggregate quality_score支持快速质量筛选。特有策展训练集curator_training_strict经过15项质量标签过滤,确保数据纯净度。分层评估集curator_eval_set_v2按五类意图各50例构建,为基准测试提供可靠支持。
使用方法
研究者可通过Hugging Face Datasets库加载各配置子集,如使用curator_training.parquet微调技能编辑模型,以(before, intent_text)为输入生成补丁后技能。bundled.parquet提供完整技能文件夹的辅文件上下文。repos.parquet记录仓库元数据支持跨平台对比分析。配套skill_linter.py工具可无需模型进行13项规则检测,eval_curator.py提供seeded=42的评估框架,内置基线模型与OpenAI/Anthropic适配器,输出编辑距离、ROUGE-L、审阅评分及lint差异四类指标,支持模型性能客观评估。
背景与挑战
背景概述
该数据集名为skill-diffs,由Nous Research等机构于2024年创建,专注于捕获公开GitHub仓库中智能体技能文件(SKILL.md)的逐次提交修订历史。其核心研究问题在于如何从异构来源——包括人类、AI代理(Claude Code、Cursor、Copilot等)以及人机协作——所生成的合并提交中提取高质量的编辑信号,以支持技能编辑模型与偏好对训练。该数据集覆盖了Anthropic Claude、OpenClaw、OpenCode和Hermes Agent四个平台,包含近百万条记录,并通过MinHash与语义聚类去重、结构化差异摘要和质量评分等创新方法提升了数据效用,为智能体技能迭代与自动化维护领域提供了前所未有的规模化基准,对提升AI代理的可维护性与适应性具有重要影响。
当前挑战
数据集所解决的领域挑战包括:现有公开差异对数据规模极小(约1500对),难以支撑泛化能力强的模型训练;技能编辑信号高度异构,作者身份混杂(人类、不同AI代理),使机器学习模型难以学习到统一的编辑分布特征。构建过程中遭遇的挑战则涵盖:从近6000个仓库中精确提取与解析不同平台格式的技能文件;通过PR元数据与提交历史匹配来丰富意图标签,但仅有7.7%的记录能成功关联PR信息;设计去重策略以处理交叉平台的近重复与独立实现变体;以及构建质量过滤管道,从原始数据筛选出仅8.2%的高质量训练样本,同时平衡数据纯净度与规模损失间的权衡。
常用场景
经典使用场景
在技能代理系统(Agent-Skill System)的研究领域中,skill-diffs 数据集为研究者提供了一套空前规模的细粒度代码修订历史资源。其核心使用场景聚焦于对代理技能文件(SKILL.md)进行“提交级前后差异”的建模,每条记录以 (before, after, intent) 三元组的形式,精确捕捉技能在人工反馈驱动下逐步优化的全过程。该数据集覆盖了 Anthropic Claude、OpenClaw、OpenCode 和 Hermes Agent 四大主流平台,并附带近百万条差异记录及丰富的元数据标签,为训练技能编辑模型、偏好对齐模型以及跨平台技能编辑模式分析奠定了高质量的数据基础。
衍生相关工作
基于 skill-diffs 数据集已衍生出一系列有价值的配套工具和基准工作,最突出的包括 skill_linter.py 和 eval_curator.py。前者是一款轻量级规则检查器,能够在无需调用大模型的情况下完成 13 种常见技能缺陷的自动检测,覆盖超过 66 万条记录的缺陷分析;后者则为技能编辑任务提供了标准化的评估框架,内置身份映射、意图文本、OpenAI、Anthropic 等多种基线模型,并引入 linter_delta 这一面向客观正确性的评测指标。这一评估体系表明,现有商用大模型在忠实还原合并编辑分布方面仍然存在不足,为后续小模型微调工作指明了明确的方向。
数据集最近研究
最新研究方向
当前,skill-diffs数据集的研究前沿聚焦于利用大规模、跨平台的Agent技能迭代历史,深度挖掘人类与AI协作编辑模式,以提升小型模型在代码编辑与技能策展任务上的表现。该数据集覆盖Anthropic Claude、Hermes Agent等四大平台的近百万条逐提交修订记录,其结构化差异摘要、语义聚类及多维度质量标签,为偏好对训练与直接偏好优化提供了丰富信号。尤其在Hermes Agent的Curator模型微调中,通过精细化过滤和分层评估集,研究者正致力于在保持编辑分布匹配的前提下,以极低成本实现媲美前沿闭源模型的效果,从而推动AI自主维护循环的实用化与普及化。
以上内容由遇见数据集搜集并总结生成



