five

blastwind/deprecated-github-code-haskell-function

收藏
Hugging Face2023-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/blastwind/deprecated-github-code-haskell-function
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为github-code-haskell-function,是从github-code-haskell-file数据集中提取的。每个数据行包含同一函数的三种形式:完整代码、无注释代码和仅函数代码。完整代码包括函数及其最近的签名和注释,无注释代码包括函数及其最近的签名,仅函数代码仅包括函数本身。此外,每行还包含基于无注释代码计算出的属性值,用于个人分析项目。数据集包含训练、验证和测试三个部分,总行数为3.26M,下载大小为1.17GB。

该数据集名为github-code-haskell-function,是从github-code-haskell-file数据集中提取的。每个数据行包含同一函数的三种形式:完整代码、无注释代码和仅函数代码。完整代码包括函数及其最近的签名和注释,无注释代码包括函数及其最近的签名,仅函数代码仅包括函数本身。此外,每行还包含基于无注释代码计算出的属性值,用于个人分析项目。数据集包含训练、验证和测试三个部分,总行数为3.26M,下载大小为1.17GB。
提供机构:
blastwind
原始信息汇总

数据集概述

数据集信息

特征

  • repo_name: 字符串类型
  • path: 字符串类型
  • license: 字符串类型
  • full_code: 字符串类型
  • full_size: 64位整数类型
  • uncommented_code: 字符串类型
  • uncommented_size: 64位整数类型
  • function_only_code: 字符串类型
  • function_only_size: 64位整数类型
  • is_commented: 布尔类型
  • is_signatured: 布尔类型
  • n_ast_errors: 64位整数类型
  • ast_max_depth: 64位整数类型
  • n_whitespaces: 64位整数类型
  • n_ast_nodes: 64位整数类型
  • n_ast_terminals: 64位整数类型
  • n_ast_nonterminals: 64位整数类型
  • loc: 64位整数类型
  • cycloplexity: 64位整数类型

数据分割

  • train: 字节数为2166157579,样本数为2284385
  • valid: 字节数为307778276,样本数为326341
  • test: 字节数为620756348,样本数为652682

下载和数据集大小

  • 下载大小: 1597070903字节
  • 数据集大小: 3094692203字节

任务类别

  • 文本生成

标签

  • 代码
  • Haskell

大小类别

  • 1M<n<10M

数据集描述

数据集来源

数据集内容

  • 每行包含三种不同风格的同一函数:
    • uncommented_code: 包含函数及其最近的签名。
    • function_only_code: 仅包含函数。
    • full_code: 包含函数及其最近的签名和注释。
  • 7%(225k)的行具有圈复杂度和LOC值为-1,因为homplexity在解析行的uncommented_code时失败。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作