fulldecent/one-million-commits
收藏Hugging Face2023-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fulldecent/one-million-commits
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为One million commits,包含了从GitHub上提取的100万个git提交记录,涵盖了多种编程语言和结构化数据格式。数据集可用于训练模型进行编程任务的总结、执行、学习语法,以及进行评分和趋势分析。数据集以SQLite数据库的形式分发,每个仓库最多包含一次提交,数据格式遵循GitHub API的模式。
提供机构:
fulldecent
原始信息汇总
One million commits 数据集概述
基本信息
- 创建者: William Entriken
- 发布日期: 2023-09-26
- 版本: 1
- 许可证: MIT
数据集描述
该数据集包含从GitHub上收集的大量git提交记录,涵盖多种领域,如化学、生物学、金融、法律、音乐、艺术、编程、气候和医学等。
数据集用途
该数据集可用于训练模型执行以下任务:
- 总结编程工作
- 根据工作描述执行任务
- 通过示例学习所有活跃编程语言和结构化数据格式的语法
- 识别编程趋势
- 比较编程主题/语言的流行度和影响力
- 评估编程工作的质量
- 识别流行项目文件布局
数据集特点
- 数据量: 约半TB的文本数据
- 提交记录数量: 1,000,000
- 唯一仓库数量: 1,000,000
- 唯一作者数量: xxx
数据格式
数据以SQLite数据库形式分发,表结构如下:
sql
CREATE TABLE commits (repo_full_name TEXT UNIQUE, repo JSON, commit JSON, commit_patch TEXT, author JSON);
每个仓库最多包含一次提交记录,repo_full_name 是唯一键。commit_patch 是提交的完整 .patch 文件。其他列 repo, commit 和 author 是遵循GitHub API模式的JSON blob。
潜在偏差
- 该数据集可能过度代表包含7个以上字符单词的仓库。
- 该数据集可能过度代表提交次数较少的仓库。
- 该数据集可能过度代表拥有多个仓库的作者的仓库。



