blastwind/github-code-haskell-file
收藏Hugging Face2023-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/blastwind/github-code-haskell-file
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为github-code-haskell-file,包含339k行数据,下载大小为806M。数据集是从github-code-clean提取的,每行数据包含用于个人分析项目的属性值。12.6%的行由于解析失败,其循环复杂度和LOC值为-1。数据集的特征包括代码、仓库名称、路径、许可证、大小、AST错误数量、AST最大深度、空白字符数量、AST节点数量、AST终端数量、AST非终端数量、代码行数和循环复杂度。数据集分为训练集,包含339895个例子,总大小为2024779946字节。
该数据集名为github-code-haskell-file,包含339k行数据,下载大小为806M。数据集是从github-code-clean提取的,每行数据包含用于个人分析项目的属性值。12.6%的行由于解析失败,其循环复杂度和LOC值为-1。数据集的特征包括代码、仓库名称、路径、许可证、大小、AST错误数量、AST最大深度、空白字符数量、AST节点数量、AST终端数量、AST非终端数量、代码行数和循环复杂度。数据集分为训练集,包含339895个例子,总大小为2024779946字节。
提供机构:
blastwind
原始信息汇总
数据集概述
基本信息
- 数据集名称: github-code-haskell-file
- 行数: 339,000
- 下载大小: 806MB
数据集特征
- 特征名称 | 数据类型
- --- | ---
- code | string
- repo_name | string
- path | string
- license | string
- size | int64
- n_ast_errors | int64
- ast_max_depth | int64
- n_whitespaces | int64
- n_ast_nodes | int64
- n_ast_terminals | int64
- n_ast_nonterminals | int64
- loc | int64
- cycloplexity | int64
数据集划分
- 划分名称 | 字节数 | 示例数
- --- | --- | ---
- train | 2,024,779,946 | 339,895
其他信息
- 下载大小: 805,998,536字节
- 数据集大小: 2024,779,946字节
- 任务类别: text-generation
- 标签: code, haskell
- 大小类别: 100K<n<1M
- 特殊情况: 12.6% (43k) 的行中,cyclomatic complexity 和 LOC 值为
-1,原因是homplexity解析uncommented_code失败。



