five

macrocosm-os/code-parrot-github-code

收藏
Hugging Face2024-10-30 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/macrocosm-os/code-parrot-github-code
下载链接
链接失效反馈
官方服务:
资源简介:
GitHub Code数据集包含来自GitHub的1.15亿个代码文件,涵盖32种编程语言和60种文件扩展名,总数据量达到1TB。该数据集是从Google BigQuery上的公共GitHub数据集中创建的。数据集中的每个文件都包含代码内容、仓库名称、文件路径、编程语言、许可证类型和文件大小等信息。数据集主要用于文本生成任务,特别是语言建模。

The GitHub Code dataset consists of 115M code files from GitHub in 32 programming languages with 60 extensions totaling in 1TB of data. The dataset was created from the public GitHub dataset on Google BigQuery. Each file in the dataset includes the code content, repository name, file path, programming language, license type, and file size. The dataset is primarily used for text generation tasks, particularly language modeling.
提供机构:
macrocosm-os
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作