five

PeytonT/74k_repo_skills

收藏
Hugging Face2026-04-19 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/PeytonT/74k_repo_skills
下载链接
链接失效反馈
官方服务:
资源简介:
--- pretty_name: Repository Skill Miner (72k public-safe) viewer: true tags: - datasets - text - code - software-engineering size_categories: - 10K<n<100K --- # Generated with Repository Skill Miner: https://github.com/peytontolbert/repository-skill-miner ## Splits - `train`: `74472` skill rows - `repos`: `121` repo summary rows - `annotations`: `29645` annotation rows - `signals`: `2` revision signal rows ## Hugging Face configs This dataset is pushed as multiple Hub configs: - `default`: the main skill table - `repos`: repo-level summary rows - `annotations`: structured LLM annotation rows - `signals`: revision-level signal rows ## Safety Mode - `public_safe`: `true` - Raw `snippet` and `doc_text` fields are excluded. ## Primary Columns ### train - `repo_id` - `miner_revision_id` - `skill_id` - `kind` - `module` - `qualname` - `signature` - `file_path` - `line_start` - `line_end` - `annotation_summary` ### repos - `repo_id` - `miner_repo_name` - `skill_count` - `annotation_count` - `signal_count` - `annotation_models` ## Notes - Default export strips raw code/doc text to reduce licensing risk for public release. - If you need the exact code/doc strings for private workflows, rerun with `--include-code-text`.

pretty_name: 仓库技能挖掘器(72k 公共安全版) viewer: 支持数据集查看器 tags: - 数据集 - 文本 - 代码 - 软件工程 size_categories: - 1万 < n < 10万 --- # 本数据集由仓库技能挖掘器(Repository Skill Miner)生成: 其官方仓库地址为:https://github.com/peytontolbert/repository-skill-miner ## 数据分割 - `train`:包含74472条技能条目 - `repos`:包含121条仓库摘要条目 - `annotations`:包含29645条标注条目 - `signals`:包含2条版本信号条目 ## Hugging Face 数据集配置 本数据集以多个Hub配置形式上传至Hugging Face平台: - `default`:主技能数据表 - `repos`:仓库级摘要条目配置 - `annotations`:结构化大语言模型(LLM)标注条目配置 - `signals`:版本级信号条目配置 ## 安全模式设置 - `public_safe`:`true`,即已启用公共安全模式 - 原始的`snippet`与`doc_text`字段已被移除。 ## 主要字段说明 ### train 分割集 - `repo_id`:仓库标识符 - `miner_revision_id`:挖掘器版本标识符 - `skill_id`:技能标识符 - `kind`:技能类型 - `module`:所属模块 - `qualname`:限定名称 - `signature`:函数/方法签名 - `file_path`:文件路径 - `line_start`:起始行号 - `line_end`:结束行号 - `annotation_summary`:标注摘要 ### repos 分割集 - `repo_id`:仓库标识符 - `miner_repo_name`:挖掘器获取的仓库名称 - `skill_count`:技能条目总数 - `annotation_count`:标注条目总数 - `signal_count`:信号条目总数 - `annotation_models`:标注所用模型列表 ## 注意事项 - 默认导出版本已移除原始代码与文档文本,以降低公开发布的版权风险。 - 若需在私有工作流中使用完整的代码与文档字符串,请添加`--include-code-text`参数重新运行挖掘流程。
提供机构:
PeytonT
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作