OBF/research_code
收藏Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OBF/research_code
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种编程语言(如C、C++、Go、Haskell、Java、Python、Rust、TypeScript)的代码文件,每个文件包含仓库信息、文件路径、代码内容、文件长度、平均行长度、最大行长度和文件扩展类型等特征。数据集仅包含训练集,并提供了每个分割的字节数和示例数。
该数据集包含多种编程语言(如C、C++、Go、Haskell、Java、Python、Rust、TypeScript)的代码文件,每个文件包含仓库信息、文件路径、代码内容、文件长度、平均行长度、最大行长度和文件扩展类型等特征。数据集仅包含训练集,并提供了每个分割的字节数和示例数。
提供机构:
OBF
原始信息汇总
数据集概述
配置信息
C语言
- 特征:
- repo: string
- file: string
- code: string
- file_length: int64
- avg_line_length: float64
- max_line_length: int64
- extension_type: string
- 分割:
- train:
- num_bytes: 10791957059.976545
- num_examples: 802216
- train:
- 下载大小: 1425530604
- 数据集大小: 10791957059.976545
C++语言
- 特征:
- repo: string
- file: string
- code: string
- file_length: int64
- avg_line_length: float64
- max_line_length: int64
- extension_type: string
- 分割:
- train:
- num_bytes: 5309598856.331665
- num_examples: 394687
- train:
- 下载大小: 608841955
- 数据集大小: 5309598856.331665
Go语言
- 特征:
- repo: string
- file: string
- code: string
- file_length: int64
- avg_line_length: float64
- max_line_length: int64
- extension_type: string
- 分割:
- train:
- num_bytes: 957925155.2820561
- num_examples: 71207
- train:
- 下载大小: 109696524
- 数据集大小: 957925155.2820561
Haskell语言
- 特征:
- repo: string
- file: string
- code: string
- file_length: int64
- avg_line_length: float64
- max_line_length: int64
- extension_type: string
- 分割:
- train:
- num_bytes: 58747864.01781762
- num_examples: 4367
- train:
- 下载大小: 5301713
- 数据集大小: 58747864.01781762
Java语言
- 特征:
- repo: string
- file: string
- code: string
- file_length: int64
- avg_line_length: float64
- max_line_length: int64
- extension_type: string
- 分割:
- train:
- num_bytes: 5608208047.447648
- num_examples: 416884
- train:
- 下载大小: 430136156
- 数据集大小: 5608208047.447648
Python语言
- 特征:
- repo: string
- file: string
- code: string
- file_length: int64
- avg_line_length: float64
- max_line_length: int64
- extension_type: string
- 分割:
- train:
- num_bytes: 7255394837.906463
- num_examples: 539327
- train:
- 下载大小: 965554391
- 数据集大小: 7255394837.906463
Rust语言
- 特征:
- repo: string
- file: string
- code: string
- file_length: int64
- avg_line_length: float64
- max_line_length: int64
- extension_type: string
- 分割:
- train:
- num_bytes: 226812225.1752702
- num_examples: 16860
- train:
- 下载大小: 30445667
- 数据集大小: 226812225.1752702
TypeScript语言
- 特征:
- repo: string
- file: string
- code: string
- file_length: int64
- avg_line_length: float64
- max_line_length: int64
- extension_type: string
- 分割:
- train:
- num_bytes: 374939711.0237222
- num_examples: 27871
- train:
- 下载大小: 28836400
- 数据集大小: 374939711.0237222
数据文件路径
- C语言:
- train: c/train-*
- C++语言:
- train: cpp/train-*
- Go语言:
- train: go/train-*
- Haskell语言:
- train: haskell/train-*
- Java语言:
- train: java/train-*
- Python语言:
- train: python/train-*
- Rust语言:
- train: rust/train-*
- TypeScript语言:
- train: typescript/train-*



