PeytonT/74k_repo_skills
收藏Hugging Face2026-04-19 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/PeytonT/74k_repo_skills
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: Repository Skill Miner (72k public-safe)
viewer: true
tags:
- datasets
- text
- code
- software-engineering
size_categories:
- 10K<n<100K
---
# Generated with Repository Skill Miner:
https://github.com/peytontolbert/repository-skill-miner
## Splits
- `train`: `74472` skill rows
- `repos`: `121` repo summary rows
- `annotations`: `29645` annotation rows
- `signals`: `2` revision signal rows
## Hugging Face configs
This dataset is pushed as multiple Hub configs:
- `default`: the main skill table
- `repos`: repo-level summary rows
- `annotations`: structured LLM annotation rows
- `signals`: revision-level signal rows
## Safety Mode
- `public_safe`: `true`
- Raw `snippet` and `doc_text` fields are excluded.
## Primary Columns
### train
- `repo_id`
- `miner_revision_id`
- `skill_id`
- `kind`
- `module`
- `qualname`
- `signature`
- `file_path`
- `line_start`
- `line_end`
- `annotation_summary`
### repos
- `repo_id`
- `miner_repo_name`
- `skill_count`
- `annotation_count`
- `signal_count`
- `annotation_models`
## Notes
- Default export strips raw code/doc text to reduce licensing risk for public release.
- If you need the exact code/doc strings for private workflows, rerun with `--include-code-text`.
pretty_name: 仓库技能挖掘器(72k 公共安全版)
viewer: 支持数据集查看器
tags:
- 数据集
- 文本
- 代码
- 软件工程
size_categories:
- 1万 < n < 10万
---
# 本数据集由仓库技能挖掘器(Repository Skill Miner)生成:
其官方仓库地址为:https://github.com/peytontolbert/repository-skill-miner
## 数据分割
- `train`:包含74472条技能条目
- `repos`:包含121条仓库摘要条目
- `annotations`:包含29645条标注条目
- `signals`:包含2条版本信号条目
## Hugging Face 数据集配置
本数据集以多个Hub配置形式上传至Hugging Face平台:
- `default`:主技能数据表
- `repos`:仓库级摘要条目配置
- `annotations`:结构化大语言模型(LLM)标注条目配置
- `signals`:版本级信号条目配置
## 安全模式设置
- `public_safe`:`true`,即已启用公共安全模式
- 原始的`snippet`与`doc_text`字段已被移除。
## 主要字段说明
### train 分割集
- `repo_id`:仓库标识符
- `miner_revision_id`:挖掘器版本标识符
- `skill_id`:技能标识符
- `kind`:技能类型
- `module`:所属模块
- `qualname`:限定名称
- `signature`:函数/方法签名
- `file_path`:文件路径
- `line_start`:起始行号
- `line_end`:结束行号
- `annotation_summary`:标注摘要
### repos 分割集
- `repo_id`:仓库标识符
- `miner_repo_name`:挖掘器获取的仓库名称
- `skill_count`:技能条目总数
- `annotation_count`:标注条目总数
- `signal_count`:信号条目总数
- `annotation_models`:标注所用模型列表
## 注意事项
- 默认导出版本已移除原始代码与文档文本,以降低公开发布的版权风险。
- 若需在私有工作流中使用完整的代码与文档字符串,请添加`--include-code-text`参数重新运行挖掘流程。
提供机构:
PeytonT



