five

fulldecent/one-million-commits

收藏
Hugging Face2023-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fulldecent/one-million-commits
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为One million commits,包含了从GitHub上提取的100万个git提交记录,涵盖了多种编程语言和结构化数据格式。数据集可用于训练模型进行编程任务的总结、执行、学习语法,以及进行评分和趋势分析。数据集以SQLite数据库的形式分发,每个仓库最多包含一次提交,数据格式遵循GitHub API的模式。
提供机构:
fulldecent
原始信息汇总

One million commits 数据集概述

基本信息

  • 创建者: William Entriken
  • 发布日期: 2023-09-26
  • 版本: 1
  • 许可证: MIT

数据集描述

该数据集包含从GitHub上收集的大量git提交记录,涵盖多种领域,如化学、生物学、金融、法律、音乐、艺术、编程、气候和医学等。

数据集用途

该数据集可用于训练模型执行以下任务:

  1. 总结编程工作
  2. 根据工作描述执行任务
  3. 通过示例学习所有活跃编程语言和结构化数据格式的语法
  4. 识别编程趋势
  5. 比较编程主题/语言的流行度和影响力
  6. 评估编程工作的质量
  7. 识别流行项目文件布局

数据集特点

  • 数据量: 约半TB的文本数据
  • 提交记录数量: 1,000,000
  • 唯一仓库数量: 1,000,000
  • 唯一作者数量: xxx

数据格式

数据以SQLite数据库形式分发,表结构如下: sql CREATE TABLE commits (repo_full_name TEXT UNIQUE, repo JSON, commit JSON, commit_patch TEXT, author JSON);

每个仓库最多包含一次提交记录,repo_full_name 是唯一键。commit_patch 是提交的完整 .patch 文件。其他列 repo, commitauthor 是遵循GitHub API模式的JSON blob。

潜在偏差

  • 该数据集可能过度代表包含7个以上字符单词的仓库。
  • 该数据集可能过度代表提交次数较少的仓库。
  • 该数据集可能过度代表拥有多个仓库的作者的仓库。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作