five

OBF/xcodeeval_builderr_pred

收藏
Hugging Face2024-06-18 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/OBF/xcodeeval_builderr_pred
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种编程语言(C、C++、Go、Java、Python、Rust)的源代码数据,每个语言的配置包含源代码和标签两个特征。数据集分为训练集、验证集和测试集,并提供了每个数据集的大小、下载大小和样本数量。

This dataset contains source code data for multiple programming languages (C, C++, Go, Java, Python, Rust). Each language configuration includes two features: source code and labels. The dataset is divided into training, validation, and test sets, and provides the size, download size, and number of samples for each dataset.
提供机构:
OBF
原始信息汇总

数据集概述

数据集配置

C语言

  • 特征:
    • source_code: 字符串类型
    • label: 64位整数类型
  • 分割:
    • train: 189118个样本,167611205.0字节
    • validation: 576个样本,506403.0字节
    • test: 2907个样本,2598174.0字节
  • 下载大小: 72938939字节
  • 数据集大小: 170715782.0字节

C++语言

  • 特征:
    • source_code: 字符串类型
    • label: 64位整数类型
  • 分割:
    • train: 250000个样本,443439508.2346751字节
    • validation: 856个样本,1775236.0字节
    • test: 4243个样本,7427562.0字节
  • 下载大小: 203803331字节
  • 数据集大小: 452642306.2346751字节

Go语言

  • 特征:
    • source_code: 字符串类型
    • label: 64位整数类型
  • 分割:
    • train: 53561个样本,72095494.0字节
    • validation: 212个样本,163305.0字节
    • test: 814个样本,603343.0字节
  • 下载大小: 32010271字节
  • 数据集大小: 72862142.0字节

Java语言

  • 特征:
    • source_code: 字符串类型
    • label: 64位整数类型
  • 分割:
    • train: 250000个样本,802830956.602289字节
    • validation: 1000个样本,2827943.0字节
    • test: 5000个样本,13551754.0字节
  • 下载大小: 287770467字节
  • 数据集大小: 819210653.602289字节

Python语言

  • 特征:
    • source_code: 字符串类型
    • label: 64位整数类型
  • 分割:
    • train: 250000个样本,158562789.12901285字节
    • validation: 530个样本,254939.0字节
    • test: 2451个样本,1330880.0字节
  • 下载大小: 69587210字节
  • 数据集大小: 160148608.12901285字节

Rust语言

  • 特征:
    • source_code: 字符串类型
    • label: 64位整数类型
  • 分割:
    • train: 52449个样本,266755615.0字节
    • validation: 94个样本,168425.0字节
    • test: 324个样本,610863.0字节
  • 下载大小: 97210647字节
  • 数据集大小: 267534903.0字节

数据文件路径

C语言

  • train: c/train-*
  • validation: c/validation-*
  • test: c/test-*

C++语言

  • train: cpp/train-*
  • validation: cpp/validation-*
  • test: cpp/test-*

Go语言

  • train: go/train-*
  • validation: go/validation-*
  • test: go/test-*

Java语言

  • train: java/train-*
  • validation: java/validation-*
  • test: java/test-*

Python语言

  • train: python/train-*
  • validation: python/validation-*
  • test: python/test-*

Rust语言

  • train: rust/train-*
  • validation: rust/validation-*
  • test: rust/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作