blastwind/deprecated-github-code-haskell-function
收藏Hugging Face2023-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/blastwind/deprecated-github-code-haskell-function
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为github-code-haskell-function,是从github-code-haskell-file数据集中提取的。每个数据行包含同一函数的三种形式:完整代码、无注释代码和仅函数代码。完整代码包括函数及其最近的签名和注释,无注释代码包括函数及其最近的签名,仅函数代码仅包括函数本身。此外,每行还包含基于无注释代码计算出的属性值,用于个人分析项目。数据集包含训练、验证和测试三个部分,总行数为3.26M,下载大小为1.17GB。
该数据集名为github-code-haskell-function,是从github-code-haskell-file数据集中提取的。每个数据行包含同一函数的三种形式:完整代码、无注释代码和仅函数代码。完整代码包括函数及其最近的签名和注释,无注释代码包括函数及其最近的签名,仅函数代码仅包括函数本身。此外,每行还包含基于无注释代码计算出的属性值,用于个人分析项目。数据集包含训练、验证和测试三个部分,总行数为3.26M,下载大小为1.17GB。
提供机构:
blastwind
原始信息汇总
数据集概述
数据集信息
特征
- repo_name: 字符串类型
- path: 字符串类型
- license: 字符串类型
- full_code: 字符串类型
- full_size: 64位整数类型
- uncommented_code: 字符串类型
- uncommented_size: 64位整数类型
- function_only_code: 字符串类型
- function_only_size: 64位整数类型
- is_commented: 布尔类型
- is_signatured: 布尔类型
- n_ast_errors: 64位整数类型
- ast_max_depth: 64位整数类型
- n_whitespaces: 64位整数类型
- n_ast_nodes: 64位整数类型
- n_ast_terminals: 64位整数类型
- n_ast_nonterminals: 64位整数类型
- loc: 64位整数类型
- cycloplexity: 64位整数类型
数据分割
- train: 字节数为2166157579,样本数为2284385
- valid: 字节数为307778276,样本数为326341
- test: 字节数为620756348,样本数为652682
下载和数据集大小
- 下载大小: 1597070903字节
- 数据集大小: 3094692203字节
任务类别
- 文本生成
标签
- 代码
- Haskell
大小类别
- 1M<n<10M
数据集描述
数据集来源
- 该数据集是从github-code-haskell-file提取的。
数据集内容
- 每行包含三种不同风格的同一函数:
- uncommented_code: 包含函数及其最近的签名。
- function_only_code: 仅包含函数。
- full_code: 包含函数及其最近的签名和注释。
- 7%(225k)的行具有圈复杂度和LOC值为
-1,因为homplexity在解析行的uncommented_code时失败。



