astra-skills

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/zhangdw/astra-skills

下载链接

链接失效反馈

官方服务：

资源简介：

Astra Skills Collection 是一个包含148,134个去重AI代理技能的数据集，通过Astra从GitHub仓库爬取并于2026-04-15生成快照。每个技能目录包含SKILL.md文件和_meta.json元数据文件，其中_meta.json记录了来源网站、仓库URL、所有者等信息。数据集通过特定流程爬取：从技能索引网站发现GitHub仓库，克隆仓库，递归检测包含SKILL.md的目录，复制技能目录并基于SKILL.md内容的MD5哈希去重。该数据集适用于编码代理工具使用和指令跟随行为研究、技能检索与组合实验以及真实世界代理技能生态系统分析。数据集元数据采用Apache-2.0许可，各技能内容保持其原始仓库许可。

创建时间：

2026-04-15

原始信息汇总

Astra Skills Collection 数据集概述

数据集基本信息

数据集名称：Astra Skills Collection
发布者：Dawei Zhang (GitHub: zhangdw156)
许可证：数据集元数据和打包使用 Apache-2.0 许可证。单个技能内容仍受其原始仓库许可证约束。
任务类别：文本生成
主要语言：英语
数据规模：100K < n < 1M
标签：agent-skills, ai-agents, tool-use, claude-code, skill-discovery, github-crawling

数据集内容与统计

技能总数（去重后）：148,134
数据源标签：仅 GitHub
快照日期：2026-04-15
爬取时间范围（UTC）：2026-04-15 09:10:28 → 2026-04-15 11:59:38

数据结构

每个保存的技能目录均复制自包含 SKILL.md 文件的 GitHub 仓库路径。

典型结构如下：

{source}{owner}{skill_name}/ ├── SKILL.md ├── _meta.json └── [可选文件，例如 scripts/]

其中 _meta.json 存储爬取元数据，如来源网站、仓库 URL、所有者、仓库名、技能名称和相对路径。

爬取流程

从技能索引网站（skills.sh、skillstore.io、agent-skills.md）及配置的种子仓库中发现 GitHub 仓库。
克隆发现的仓库。
递归检测包含 SKILL.md 的目录。
将技能目录复制到本数据集的布局中。
通过 skills.db 中 SKILL.md 内容的 MD5 哈希值进行去重。

注意：网站索引覆盖率不保证能成功检索到列出的每一个技能，因为仓库的可访问性和内容可用性可能有所不同。

预期用途

编码智能体中工具使用和指令遵循行为的研究
技能检索、排序和组合实验
真实世界智能体技能生态系统的分析

引用信息

若在研究中使用此数据集，请引用： bibtex @misc{dawei_zhang_2026, author = { Dawei Zhang }, title = { astra-skills (Revision 146eb8c) }, year = 2026, url = { https://huggingface.co/datasets/zhangdw/astra-skills }, doi = { 10.57967/hf/8399 }, publisher = { Hugging Face } }

搜集汇总

数据集介绍

构建方式

在人工智能代理技能研究领域，Astra Skills Collection的构建体现了系统化的数据采集与整合方法。该数据集通过爬取GitHub上包含SKILL.md文件的仓库目录，采用自动化流程进行技能发现与提取。具体而言，构建过程始于从多个技能索引网站及种子仓库中发现相关GitHub仓库，随后克隆仓库并递归检测包含SKILL.md的目录。每个技能目录被复制为标准化结构，包含SKILL.md、元数据文件及可选脚本。最终通过计算SKILL.md内容的MD5哈希值进行去重处理，确保数据唯一性，从而形成包含148,134项去重技能的结构化集合。

特点

该数据集的核心特征在于其专注于真实世界AI代理技能的生态呈现。数据集规模达到近十五万项去重技能，全部来源于GitHub平台，反映了当前开源社区中工具使用与指令遵循行为的实际分布。每个技能条目均以标准化目录结构组织，其中SKILL.md文件承载核心技能描述，_meta.json文件则系统记录爬取元数据，包括来源站点、仓库URL、所有者等关键信息。这种结构不仅保障了数据的可追溯性，也为技能检索、排名与组合实验提供了规范化基础。数据集的时间戳明确标注为2026年4月15日的快照，为时序研究提供了清晰的时间锚点。

使用方法

研究人员可借助该数据集深入探索编码代理的工具使用与指令遵循行为机制。数据集适用于技能检索系统的开发与评估，支持基于内容的相似性匹配与排名算法实验。在技能组合研究方面，可通过分析技能间的功能关联性，探索多技能协同工作的潜在模式。使用时应首先解析数据集中的标准化目录结构，利用SKILL.md文件获取技能描述文本，结合_meta.json中的元数据进行来源分析与质量评估。鉴于技能内容仍受原始仓库许可约束，在实际应用中需遵循相应的开源协议规范。

背景与挑战

背景概述

在人工智能代理（AI Agent）研究领域，工具使用与指令遵循能力是衡量智能体实用性与泛化性的核心指标。Astra Skills Collection数据集由研究者Dawei Zhang于2026年创建，通过系统化爬取GitHub平台上公开的AI代理技能描述文件（SKILL.md），构建了一个规模达148,134项去重技能的结构化集合。该数据集旨在为编码智能体的技能检索、排序与组合实验提供真实世界的数据基础，推动智能体在复杂任务中工具调用与技能发现机制的研究，对自动化编程、智能体生态系统分析等领域具有显著的参考价值。

当前挑战

该数据集致力于解决AI代理领域中的技能发现与工具使用优化问题，其核心挑战在于如何从海量、异构的公开代码仓库中准确识别并结构化表示智能体技能。在构建过程中，面临多重挑战：首先，技能索引网站的覆盖范围有限，且仓库可访问性与内容完整性存在差异，导致无法保证全面获取所有已列出的技能；其次，技能描述文件的格式与内容质量参差不齐，需通过MD5哈希去重与元数据提取来确保数据的一致性与可用性；此外，技能之间的依赖关系与组合逻辑尚未显式建模，为后续的技能检索与合成实验带来了语义关联性分析的困难。

常用场景

经典使用场景

在人工智能代理与工具使用的研究领域中，Astra Skills Collection数据集为探索编码代理的指令遵循与工具调用行为提供了丰富的实证基础。该数据集通过系统爬取GitHub平台上包含SKILL.md文件的技能目录，构建了一个规模达148,134项的去重技能集合，典型应用于技能检索、排序与组合的实验分析。研究人员可借此剖析真实世界中的智能体技能生态系统，考察技能的结构化描述与实际代码实现之间的关联，进而推动自动化技能发现与评估框架的发展。

实际应用

在实际应用层面，该数据集为构建高效、可扩展的智能体技能库提供了直接资源。开发者可基于其中结构化的技能描述与关联代码，快速集成或适配各类工具调用模块，加速面向复杂任务的自动化流程设计。例如，在软件开发辅助、自动化测试或数据预处理等场景中，系统能够通过检索与匹配相关技能，动态组装执行链路，提升智能体的问题解决能力。同时，数据集也可作为技能市场或技能推荐系统的底层数据源，支撑商业化智能体平台的技能生态建设。

衍生相关工作

围绕Astra Skills Collection，已衍生出多项关注技能挖掘与利用的经典研究工作。部分研究聚焦于技能嵌入表示学习，通过分析SKILL.md的文本描述与代码上下文，构建技能语义向量以支持相似性检索。另有工作探索技能间的依赖关系图谱构建，旨在实现技能自动组合与冲突检测。此外，基于该数据集的技能质量评估与排名算法也受到关注，这些方法通过量化技能的完整性、复用率与社区评价，为技能库的维护与优化提供准则。这些成果共同推动了智能体技能工程向系统化、数据驱动的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集