five

blastwind/github-code-haskell-file

收藏
Hugging Face2023-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/blastwind/github-code-haskell-file
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为github-code-haskell-file,包含339k行数据,下载大小为806M。数据集是从github-code-clean提取的,每行数据包含用于个人分析项目的属性值。12.6%的行由于解析失败,其循环复杂度和LOC值为-1。数据集的特征包括代码、仓库名称、路径、许可证、大小、AST错误数量、AST最大深度、空白字符数量、AST节点数量、AST终端数量、AST非终端数量、代码行数和循环复杂度。数据集分为训练集,包含339895个例子,总大小为2024779946字节。

该数据集名为github-code-haskell-file,包含339k行数据,下载大小为806M。数据集是从github-code-clean提取的,每行数据包含用于个人分析项目的属性值。12.6%的行由于解析失败,其循环复杂度和LOC值为-1。数据集的特征包括代码、仓库名称、路径、许可证、大小、AST错误数量、AST最大深度、空白字符数量、AST节点数量、AST终端数量、AST非终端数量、代码行数和循环复杂度。数据集分为训练集,包含339895个例子,总大小为2024779946字节。
提供机构:
blastwind
原始信息汇总

数据集概述

基本信息

  • 数据集名称: github-code-haskell-file
  • 行数: 339,000
  • 下载大小: 806MB

数据集特征

  • 特征名称 | 数据类型
  • --- | ---
  • code | string
  • repo_name | string
  • path | string
  • license | string
  • size | int64
  • n_ast_errors | int64
  • ast_max_depth | int64
  • n_whitespaces | int64
  • n_ast_nodes | int64
  • n_ast_terminals | int64
  • n_ast_nonterminals | int64
  • loc | int64
  • cycloplexity | int64

数据集划分

  • 划分名称 | 字节数 | 示例数
  • --- | --- | ---
  • train | 2,024,779,946 | 339,895

其他信息

  • 下载大小: 805,998,536字节
  • 数据集大小: 2024,779,946字节
  • 任务类别: text-generation
  • 标签: code, haskell
  • 大小类别: 100K<n<1M
  • 特殊情况: 12.6% (43k) 的行中,cyclomatic complexity 和 LOC 值为 -1,原因是 homplexity 解析 uncommented_code 失败。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作