five

common-pile/github_archive_filtered

收藏
Hugging Face2025-06-06 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/common-pile/github_archive_filtered
下载链接
链接失效反馈
官方服务:
资源简介:
GitHub Archive数据集是一个包含了自2011年以来GitHub上所有问题、拉取请求和评论事件的集合,经过过滤后,大约有177百万个线程跨越19百万个仓库。这个数据集只保留了具有Blue Oak Council批准许可证的仓库的线程信息,并且转换了其中的markdown格式为纯文本。每个文档都包含了其许可证信息。

The GitHub Archive dataset is a collection of all issues, pull requests, and comment events on GitHub since 2011, after filtering, it contains approximately 17.7 million threads across 1.9 million repositories. This dataset only retains threads from repositories with a Blue Oak Council-approved license, and the markdown format within has been converted to plain text. Each document includes its licensing information.
提供机构:
common-pile
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作