five

OBF/research_code

收藏
Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OBF/research_code
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种编程语言(如C、C++、Go、Haskell、Java、Python、Rust、TypeScript)的代码文件,每个文件包含仓库信息、文件路径、代码内容、文件长度、平均行长度、最大行长度和文件扩展类型等特征。数据集仅包含训练集,并提供了每个分割的字节数和示例数。

该数据集包含多种编程语言(如C、C++、Go、Haskell、Java、Python、Rust、TypeScript)的代码文件,每个文件包含仓库信息、文件路径、代码内容、文件长度、平均行长度、最大行长度和文件扩展类型等特征。数据集仅包含训练集,并提供了每个分割的字节数和示例数。
提供机构:
OBF
原始信息汇总

数据集概述

配置信息

C语言

  • 特征:
    • repo: string
    • file: string
    • code: string
    • file_length: int64
    • avg_line_length: float64
    • max_line_length: int64
    • extension_type: string
  • 分割:
    • train:
      • num_bytes: 10791957059.976545
      • num_examples: 802216
  • 下载大小: 1425530604
  • 数据集大小: 10791957059.976545

C++语言

  • 特征:
    • repo: string
    • file: string
    • code: string
    • file_length: int64
    • avg_line_length: float64
    • max_line_length: int64
    • extension_type: string
  • 分割:
    • train:
      • num_bytes: 5309598856.331665
      • num_examples: 394687
  • 下载大小: 608841955
  • 数据集大小: 5309598856.331665

Go语言

  • 特征:
    • repo: string
    • file: string
    • code: string
    • file_length: int64
    • avg_line_length: float64
    • max_line_length: int64
    • extension_type: string
  • 分割:
    • train:
      • num_bytes: 957925155.2820561
      • num_examples: 71207
  • 下载大小: 109696524
  • 数据集大小: 957925155.2820561

Haskell语言

  • 特征:
    • repo: string
    • file: string
    • code: string
    • file_length: int64
    • avg_line_length: float64
    • max_line_length: int64
    • extension_type: string
  • 分割:
    • train:
      • num_bytes: 58747864.01781762
      • num_examples: 4367
  • 下载大小: 5301713
  • 数据集大小: 58747864.01781762

Java语言

  • 特征:
    • repo: string
    • file: string
    • code: string
    • file_length: int64
    • avg_line_length: float64
    • max_line_length: int64
    • extension_type: string
  • 分割:
    • train:
      • num_bytes: 5608208047.447648
      • num_examples: 416884
  • 下载大小: 430136156
  • 数据集大小: 5608208047.447648

Python语言

  • 特征:
    • repo: string
    • file: string
    • code: string
    • file_length: int64
    • avg_line_length: float64
    • max_line_length: int64
    • extension_type: string
  • 分割:
    • train:
      • num_bytes: 7255394837.906463
      • num_examples: 539327
  • 下载大小: 965554391
  • 数据集大小: 7255394837.906463

Rust语言

  • 特征:
    • repo: string
    • file: string
    • code: string
    • file_length: int64
    • avg_line_length: float64
    • max_line_length: int64
    • extension_type: string
  • 分割:
    • train:
      • num_bytes: 226812225.1752702
      • num_examples: 16860
  • 下载大小: 30445667
  • 数据集大小: 226812225.1752702

TypeScript语言

  • 特征:
    • repo: string
    • file: string
    • code: string
    • file_length: int64
    • avg_line_length: float64
    • max_line_length: int64
    • extension_type: string
  • 分割:
    • train:
      • num_bytes: 374939711.0237222
      • num_examples: 27871
  • 下载大小: 28836400
  • 数据集大小: 374939711.0237222

数据文件路径

  • C语言:
    • train: c/train-*
  • C++语言:
    • train: cpp/train-*
  • Go语言:
    • train: go/train-*
  • Haskell语言:
    • train: haskell/train-*
  • Java语言:
    • train: java/train-*
  • Python语言:
    • train: python/train-*
  • Rust语言:
    • train: rust/train-*
  • TypeScript语言:
    • train: typescript/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作