lumees/github-code-2025-language-split
收藏Hugging Face2025-12-01 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/lumees/github-code-2025-language-split
下载链接
链接失效反馈官方服务:
资源简介:
---
source_datasets:
- nick007x/github-code-2025
license:
- other
configs:
- config_name: assembly
data_files:
- split: train
path: Assembly/*.parquet
- config_name: batch
data_files:
- split: train
path: Batch/*.parquet
- config_name: c
data_files:
- split: train
path: C/*.parquet
- config_name: csharp
data_files:
- split: train
path: C#/*.parquet
- config_name: cpp
data_files:
- split: train
path: C++/*.parquet
- config_name: css
data_files:
- split: train
path: CSS/*.parquet
- config_name: clojure
data_files:
- split: train
path: Clojure/*.parquet
- config_name: crystal
data_files:
- split: train
path: Crystal/*.parquet
- config_name: dart
data_files:
- split: train
path: Dart/*.parquet
- config_name: dockerfile
data_files:
- split: train
path: Dockerfile/*.parquet
- config_name: elixir
data_files:
- split: train
path: Elixir/*.parquet
- config_name: erlang
data_files:
- split: train
path: Erlang/*.parquet
- config_name: fsharp
data_files:
- split: train
path: F#/*.parquet
- config_name: go
data_files:
- split: train
path: Go/*.parquet
- config_name: gradle
data_files:
- split: train
path: Gradle/*.parquet
- config_name: groovy
data_files:
- split: train
path: Groovy/*.parquet
- config_name: html
data_files:
- split: train
path: HTML/*.parquet
- config_name: haskell
data_files:
- split: train
path: Haskell/*.parquet
- config_name: json
data_files:
- split: train
path: JSON/*.parquet
- config_name: java
data_files:
- split: train
path: Java/*.parquet
- config_name: javascript
data_files:
- split: train
path: JavaScript/*.parquet
- config_name: julia
data_files:
- split: train
path: Julia/*.parquet
- config_name: kotlin
data_files:
- split: train
path: Kotlin/*.parquet
- config_name: lua
data_files:
- split: train
path: Lua/*.parquet
- config_name: makefile
data_files:
- split: train
path: Makefile/*.parquet
- config_name: markdown
data_files:
- split: train
path: Markdown/*.parquet
- config_name: nim
data_files:
- split: train
path: Nim/*.parquet
- config_name: ocaml
data_files:
- split: train
path: OCaml/*.parquet
- config_name: objective_c
data_files:
- split: train
path: Objective-C/*.parquet
- config_name: objective_cpp
data_files:
- split: train
path: Objective-C++/*.parquet
- config_name: php
data_files:
- split: train
path: PHP/*.parquet
- config_name: perl
data_files:
- split: train
path: Perl/*.parquet
- config_name: powershell
data_files:
- split: train
path: PowerShell/*.parquet
- config_name: python
data_files:
- split: train
path: Python/*.parquet
- config_name: r
data_files:
- split: train
path: R/*.parquet
- config_name: ruby
data_files:
- split: train
path: Ruby/*.parquet
- config_name: rust
data_files:
- split: train
path: Rust/*.parquet
- config_name: sql
data_files:
- split: train
path: SQL/*.parquet
- config_name: scala
data_files:
- split: train
path: Scala/*.parquet
- config_name: shell
data_files:
- split: train
path: Shell/*.parquet
- config_name: solidity
data_files:
- split: train
path: Solidity/*.parquet
- config_name: svelte
data_files:
- split: train
path: Svelte/*.parquet
- config_name: swift
data_files:
- split: train
path: Swift/*.parquet
- config_name: systemverilog
data_files:
- split: train
path: SystemVerilog/*.parquet
- config_name: toml
data_files:
- split: train
path: TOML/*.parquet
- config_name: text
data_files:
- split: train
path: Text/*.parquet
- config_name: typescript
data_files:
- split: train
path: TypeScript/*.parquet
- config_name: unknown
data_files:
- split: train
path: Unknown/*.parquet
- config_name: vhdl
data_files:
- split: train
path: VHDL/*.parquet
- config_name: verilog
data_files:
- split: train
path: Verilog/*.parquet
- config_name: visual_basic
data_files:
- split: train
path: Visual Basic/*.parquet
- config_name: vue
data_files:
- split: train
path: Vue/*.parquet
- config_name: xml
data_files:
- split: train
path: XML/*.parquet
- config_name: yaml
data_files:
- split: train
path: YAML/*.parquet
- config_name: zig
data_files:
- split: train
path: Zig/*.parquet
---
## 📜 Source Data & Attribution
This dataset is a processed derivative of **[nick007x/github-code-2025](https://huggingface.co/datasets/nick007x/github-code-2025)**.
### Origination
The original data was aggregated by **nick007x** from public GitHub repositories. We have retained the original content, file paths, and metadata while restructuring the format for easier consumption by language-specific models.
### Processing Steps
To create this dataset, we performed the following processing on the source data:
1. **Language Identification:** We mapped file extensions (e.g., `.py`, `.rs`, `.ts`) to their respective programming languages using a comprehensive extension map.
2. **Splitting:** The dataset was sharded and split into separate sub-directories/categories by programming language to allow for targeted loading (e.g., loading only Python or Rust data).
3. **Filtering:** Binary files and ambiguous extensions were categorized as "Unknown" or removed to ensure text-based model compatibility.
### Licensing Information
The data contained in this dataset belongs to the original authors of the code repositories on GitHub.
* **Source Aggregation:** The aggregation was provided by `nick007x/github-code-2025`.
* **Individual Code Files:** Each file typically retains the license of its original repository (MIT, Apache 2.0, BSD, etc.). Users of this dataset are responsible for adhering to the license terms of the individual code files contained within.
### Citation
If you use this dataset, please cite the original source:
```bibtex
@misc{github-code-2025,
author = {nick007x},
title = {GitHub Code 2025 Dataset},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/datasets/nick007x/github-code-2025}}
}
```
源数据集:
- nick007x/github-code-2025
许可协议:
- 其他
配置项:
- 配置名称:汇编语言(Assembly)
数据文件:
- 拆分集:训练集
路径:Assembly/*.parquet
- 配置名称:批处理(Batch)
数据文件:
- 拆分集:训练集
路径:Batch/*.parquet
- 配置名称:C语言(C)
数据文件:
- 拆分集:训练集
路径:C/*.parquet
- 配置名称:C#(C#)
数据文件:
- 拆分集:训练集
路径:C#/*.parquet
- 配置名称:C++(C++)
数据文件:
- 拆分集:训练集
路径:C++/*.parquet
- 配置名称:CSS(CSS)
数据文件:
- 拆分集:训练集
路径:CSS/*.parquet
- 配置名称:Clojure(Clojure)
数据文件:
- 拆分集:训练集
路径:Clojure/*.parquet
- 配置名称:Crystal(Crystal)
数据文件:
- 拆分集:训练集
路径:Crystal/*.parquet
- 配置名称:Dart(Dart)
数据文件:
- 拆分集:训练集
路径:Dart/*.parquet
- 配置名称:Dockerfile(Dockerfile)
数据文件:
- 拆分集:训练集
路径:Dockerfile/*.parquet
- 配置名称:Elixir(Elixir)
数据文件:
- 拆分集:训练集
路径:Elixir/*.parquet
- 配置名称:Erlang(Erlang)
数据文件:
- 拆分集:训练集
路径:Erlang/*.parquet
- 配置名称:F#(F#)
数据文件:
- 拆分集:训练集
路径:F#/*.parquet
- 配置名称:Go(Go)
数据文件:
- 拆分集:训练集
路径:Go/*.parquet
- 配置名称:Gradle(Gradle)
数据文件:
- 拆分集:训练集
路径:Gradle/*.parquet
- 配置名称:Groovy(Groovy)
数据文件:
- 拆分集:训练集
路径:Groovy/*.parquet
- 配置名称:HTML(HTML)
数据文件:
- 拆分集:训练集
路径:HTML/*.parquet
- 配置名称:Haskell(Haskell)
数据文件:
- 拆分集:训练集
路径:Haskell/*.parquet
- 配置名称:JSON(JSON)
数据文件:
- 拆分集:训练集
路径:JSON/*.parquet
- 配置名称:Java(Java)
数据文件:
- 拆分集:训练集
路径:Java/*.parquet
- 配置名称:JavaScript(JavaScript)
数据文件:
- 拆分集:训练集
路径:JavaScript/*.parquet
- 配置名称:Julia(Julia)
数据文件:
- 拆分集:训练集
路径:Julia/*.parquet
- 配置名称:Kotlin(Kotlin)
数据文件:
- 拆分集:训练集
路径:Kotlin/*.parquet
- 配置名称:Lua(Lua)
数据文件:
- 拆分集:训练集
路径:Lua/*.parquet
- 配置名称:Makefile(Makefile)
数据文件:
- 拆分集:训练集
路径:Makefile/*.parquet
- 配置名称:Markdown(Markdown)
数据文件:
- 拆分集:训练集
路径:Markdown/*.parquet
- 配置名称:Nim(Nim)
数据文件:
- 拆分集:训练集
路径:Nim/*.parquet
- 配置名称:OCaml(OCaml)
数据文件:
- 拆分集:训练集
路径:OCaml/*.parquet
- 配置名称:Objective-C(Objective-C)
数据文件:
- 拆分集:训练集
路径:Objective-C/*.parquet
- 配置名称:Objective-C++(Objective-C++)
数据文件:
- 拆分集:训练集
路径:Objective-C++/*.parquet
- 配置名称:PHP(PHP)
数据文件:
- 拆分集:训练集
路径:PHP/*.parquet
- 配置名称:Perl(Perl)
数据文件:
- 拆分集:训练集
路径:Perl/*.parquet
- 配置名称:PowerShell(PowerShell)
数据文件:
- 拆分集:训练集
路径:PowerShell/*.parquet
- 配置名称:Python(Python)
数据文件:
- 拆分集:训练集
路径:Python/*.parquet
- 配置名称:R语言(R)
数据文件:
- 拆分集:训练集
路径:R/*.parquet
- 配置名称:Ruby(Ruby)
数据文件:
- 拆分集:训练集
路径:Ruby/*.parquet
- 配置名称:Rust(Rust)
数据文件:
- 拆分集:训练集
路径:Rust/*.parquet
- 配置名称:SQL(SQL)
数据文件:
- 拆分集:训练集
路径:SQL/*.parquet
- 配置名称:Scala(Scala)
数据文件:
- 拆分集:训练集
路径:Scala/*.parquet
- 配置名称:Shell(Shell)
数据文件:
- 拆分集:训练集
路径:Shell/*.parquet
- 配置名称:Solidity(Solidity)
数据文件:
- 拆分集:训练集
路径:Solidity/*.parquet
- 配置名称:Svelte(Svelte)
数据文件:
- 拆分集:训练集
路径:Svelte/*.parquet
- 配置名称:Swift(Swift)
数据文件:
- 拆分集:训练集
路径:Swift/*.parquet
- 配置名称:SystemVerilog(SystemVerilog)
数据文件:
- 拆分集:训练集
路径:SystemVerilog/*.parquet
- 配置名称:TOML(TOML)
数据文件:
- 拆分集:训练集
路径:TOML/*.parquet
- 配置名称:文本(Text)
数据文件:
- 拆分集:训练集
路径:Text/*.parquet
- 配置名称:TypeScript(TypeScript)
数据文件:
- 拆分集:训练集
路径:TypeScript/*.parquet
- 配置名称:未知(Unknown)
数据文件:
- 拆分集:训练集
路径:Unknown/*.parquet
- 配置名称:VHDL(VHDL)
数据文件:
- 拆分集:训练集
路径:VHDL/*.parquet
- 配置名称:Verilog(Verilog)
数据文件:
- 拆分集:训练集
路径:Verilog/*.parquet
- 配置名称:Visual Basic(Visual Basic)
数据文件:
- 拆分集:训练集
路径:Visual Basic/*.parquet
- 配置名称:Vue(Vue)
数据文件:
- 拆分集:训练集
路径:Vue/*.parquet
- 配置名称:XML(XML)
数据文件:
- 拆分集:训练集
路径:XML/*.parquet
- 配置名称:YAML(YAML)
数据文件:
- 拆分集:训练集
路径:YAML/*.parquet
- 配置名称:Zig(Zig)
数据文件:
- 拆分集:训练集
路径:Zig/*.parquet
## 📜 源数据与归属声明
本数据集为**[nick007x/github-code-2025](https://huggingface.co/datasets/nick007x/github-code-2025)**的经过处理的衍生数据集。
### 源起
原始数据由**nick007x**从公开GitHub仓库中聚合得到。本数据集保留了原始内容、文件路径与元数据,同时重构了数据格式,以便针对特定语言的模型更便捷地加载使用。
### 处理流程
为构建本数据集,我们对源数据执行了以下处理步骤:
1. **语言识别**:通过一套完善的扩展名映射表,将文件扩展名(如`.py`、`.rs`、`.ts`)映射至对应的编程语言。
2. **数据拆分**:将数据集按编程语言分片并划分为独立子目录/类别,支持针对性加载(如仅加载Python或Rust数据)。
3. **数据过滤**:将二进制文件与歧义扩展名归类为“未知(Unknown)”或直接移除,以确保兼容基于文本的模型。
### 许可协议信息
本数据集内的数据归属于GitHub代码仓库的原作者。
* **源数据聚合**:数据聚合工作由`nick007x/github-code-2025`提供。
* **单代码文件许可**:每个文件通常保留其原始仓库的许可协议(如MIT、Apache 2.0、BSD等)。本数据集的使用者需遵守其中包含的各代码文件的许可协议条款。
### 引用方式
若您使用本数据集,请引用原始源数据:
bibtex
@misc{github-code-2025,
author = {nick007x},
title = {GitHub Code 2025 Dataset},
year = {2025},
publisher = {Hugging Face},
howpublished = {url{https://huggingface.co/datasets/nick007x/github-code-2025}}
}
提供机构:
lumees



