bigcode/commits_sample_files
收藏Hugging Face2023-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigcode/commits_sample_files
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从Software Heritage数据集中重建的GitHub提交和文件的样本。该样本包含了所有`pytorch/*`和`huggingface/*`仓库中的最新1024次提交。为了避免行数爆炸(因为提交之间有很多重复的文件),表格被拆分,用户需要在添加文件内容之前预先过滤提交。
提供机构:
bigcode
原始信息汇总
数据集概述
该数据集是从Software Heritage数据集中重建的GitHub提交和文件样本,包含pytorch/*和huggingface/*仓库中的最新1024个提交。
表结构描述
1. commits
提交消息表,需与commit_filepath表通过commits.directory_id == commit_filepath.directory_id和commits.parent_directory_id == commit_filepath.directory_id进行连接。
- origin: 仓库URL,例如:
https://github.com/huggingface/datasets - full_name: 仓库名称,例如:
huggingface/datasets - commit_id: 提交ID,例如:
56b114ebfd5399252dc23f9df207f87c5397b50a - parent_commit_id: 前一个提交ID,例如:
8c826fb80f7f8135f6e632d34c8f59134f5983c8 - snapshot_id: Software Heritage快照ID,例如:
d76232879a5912b1eaca91e8889863117bca66a4 - visit_date: Software Heritage爬虫访问日期,例如:
2022-11-28 13:03:09.100114 - branch_name: 分支名称,例如:
refs/heads/main - revision_date: 提交日期,例如:
2022-04-27 17:30:41 - committer_date: 提交日期,例如:
2022-04-27 17:30:41 - author: Software Heritage匿名提交者名称
- message: 提交消息,例如:
update auth when mirroring datasets on the hub (#4242) - directory_id: 根目录ID,用于与文件连接,例如:
84c6cc5b2c156ed3251674c43dd411d731183bb3 - parent_directory_id: 父提交的根目录ID,例如:
e927ce1cdecf6286f7e23204ed656373c9921f89
2. commit_filepath
每个提交关联的文件路径表,需与file_contents表通过blob_id进行连接。
- directory_id: 对应提交的根目录ID,例如:
001331910958befd665d94c85c23471a8fc1ab19 - blob_id: Software Heritage文件blob ID,例如:
47953673b7b51c2585402a91d434f5fe4d9dc105 - content_id: Software Heritage内容ID,例如:
d6b3dab547a59efe5246edf06a42e8e85776acb1 - path: 仓库内的文件路径,例如:
/core/src/components/tab-bar/usage/javascript.md - length: 文件长度(字节),例如:
529
3. file_contents
所有非二进制文件(如图像/媒体/数据)的内容。
- blob_id: Software Heritage文件blob ID,例如:
47953673b7b51c2585402a91d434f5fe4d9dc105 - content: 文件内容,始终为UTF-8字符串
- src_encoding: 原始文件编码,例如:
UTF-8 - language: 编程语言标签,例如:
Python - is_vendor: 如果是供应商文件(如第三方库)则为True
- is_generated: 如果是自动生成的文件则为True



