five

bigcode/commits_sample_files

收藏
Hugging Face2023-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigcode/commits_sample_files
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从Software Heritage数据集中重建的GitHub提交和文件的样本。该样本包含了所有`pytorch/*`和`huggingface/*`仓库中的最新1024次提交。为了避免行数爆炸(因为提交之间有很多重复的文件),表格被拆分,用户需要在添加文件内容之前预先过滤提交。
提供机构:
bigcode
原始信息汇总

数据集概述

该数据集是从Software Heritage数据集中重建的GitHub提交和文件样本,包含pytorch/*huggingface/*仓库中的最新1024个提交。

表结构描述

1. commits

提交消息表,需与commit_filepath表通过commits.directory_id == commit_filepath.directory_idcommits.parent_directory_id == commit_filepath.directory_id进行连接。

  • origin: 仓库URL,例如:https://github.com/huggingface/datasets
  • full_name: 仓库名称,例如:huggingface/datasets
  • commit_id: 提交ID,例如:56b114ebfd5399252dc23f9df207f87c5397b50a
  • parent_commit_id: 前一个提交ID,例如:8c826fb80f7f8135f6e632d34c8f59134f5983c8
  • snapshot_id: Software Heritage快照ID,例如:d76232879a5912b1eaca91e8889863117bca66a4
  • visit_date: Software Heritage爬虫访问日期,例如:2022-11-28 13:03:09.100114
  • branch_name: 分支名称,例如:refs/heads/main
  • revision_date: 提交日期,例如:2022-04-27 17:30:41
  • committer_date: 提交日期,例如:2022-04-27 17:30:41
  • author: Software Heritage匿名提交者名称
  • message: 提交消息,例如:update auth when mirroring datasets on the hub (#4242)
  • directory_id: 根目录ID,用于与文件连接,例如:84c6cc5b2c156ed3251674c43dd411d731183bb3
  • parent_directory_id: 父提交的根目录ID,例如:e927ce1cdecf6286f7e23204ed656373c9921f89

2. commit_filepath

每个提交关联的文件路径表,需与file_contents表通过blob_id进行连接。

  • directory_id: 对应提交的根目录ID,例如:001331910958befd665d94c85c23471a8fc1ab19
  • blob_id: Software Heritage文件blob ID,例如:47953673b7b51c2585402a91d434f5fe4d9dc105
  • content_id: Software Heritage内容ID,例如:d6b3dab547a59efe5246edf06a42e8e85776acb1
  • path: 仓库内的文件路径,例如:/core/src/components/tab-bar/usage/javascript.md
  • length: 文件长度(字节),例如:529

3. file_contents

所有非二进制文件(如图像/媒体/数据)的内容。

  • blob_id: Software Heritage文件blob ID,例如:47953673b7b51c2585402a91d434f5fe4d9dc105
  • content: 文件内容,始终为UTF-8字符串
  • src_encoding: 原始文件编码,例如:UTF-8
  • language: 编程语言标签,例如:Python
  • is_vendor: 如果是供应商文件(如第三方库)则为True
  • is_generated: 如果是自动生成的文件则为True
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作