five

blastwind/github-code-scala

收藏
Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/blastwind/github-code-scala
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为github-code-scala,包含Scala语言的代码数据,是从github-code-clean数据集中提取的。数据集包含817k个样本,总下载大小为1.52GB。
提供机构:
blastwind
原始信息汇总

数据集概述

数据集名称

  • 名称:github-code-scala

数据集特征

  • code (字符串)
  • repo_name (字符串)
  • path (字符串)
  • language (字符串)
  • license (字符串)
  • size (整数)

数据集分割

  • 训练集
    • 样本数量:654001
    • 数据大小:3330521484.4803743 字节
  • 验证集
    • 样本数量:81750
    • 数据大小:416314548.9934581 字节
  • 测试集
    • 样本数量:81751
    • 数据大小:416319641.5261675 字节

数据集大小

  • 下载大小:1534670727 字节
  • 数据集总大小:4163155675.0 字节

任务类别

  • 文本生成

大小类别

  • 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作