five

claudios/dypybench_functions

收藏
Hugging Face2023-08-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/claudios/dypybench_functions
下载链接
链接失效反馈
官方服务:
资源简介:
DyPyBench Functions数据集由Piyush Krishan Bajaj在斯图加特大学软件工程研究所的软件实验室构建,包含了来自GitHub的50个开源项目。使用Nathan Cooper的`function_parser`工具从项目中提取所有函数,并排除了虚拟环境中的库函数。此外,还对所有项目进行了测试并生成了覆盖率报告。数据集的列信息包括函数的唯一ID、项目ID、项目名称、SHA提交哈希、GitHub URL、文件路径、函数起始和结束行号、函数行数、函数标识符、参数、函数源代码、无文档字符串的函数源代码、文档字符串、文档字符串行数、文档字符串摘要、返回语句、文件覆盖率、执行行数、执行行数百分比、缺失行数、缺失行数百分比、是否覆盖、McCabe复杂度和函数覆盖率百分比。
提供机构:
claudios
原始信息汇总

DyPyBench Functions 数据集

数据集概述

DyPyBench Functions 数据集是由斯图加特大学软件工程研究所的 Piyush Krishan Bajaj 构建的,包含来自 GitHub 的 50 个开源项目。该数据集通过使用基于 GitHub 的 CodeSearchNet 的 function_parser 工具提取所有函数,并生成覆盖率报告。

数据集特征

数据集包含以下特征:

  • nwo: 项目名称,格式为 repo/project,类型为字符串。
  • sha: 提交哈希,类型为字符串。
  • path: 包含函数的文件路径,相对于项目根目录,类型为字符串。
  • identifier: 函数标识符,类型为字符串。
  • parameters: 函数参数,类型为字符串。
  • return_statement: 函数返回语句,类型为字符串。
  • docstring: 函数文档字符串,类型为字符串。
  • docstring_summary: 函数文档字符串摘要,类型为字符串。
  • func_begin: 函数开始行号,类型为 int64。
  • func_end: 函数结束行号,类型为 int64。
  • function: 函数源代码,包括文档字符串,类型为字符串。
  • url: 函数行在 GitHub 上的 URL,类型为字符串。
  • project: DyPyBench 项目 ID,类型为 int64。
  • executed_lines: 执行的行号序列,类型为 int64 序列。
  • executed_lines_pc: 执行行数占总行数的百分比,类型为 float64。
  • missing_lines: 缺失的行号序列,类型为 int64 序列。
  • missing_lines_pc: 缺失行数占总行数的百分比,类型为 float64。
  • covered: 是否所有行都已执行或没有缺失行,类型为布尔值。
  • filecoverage: 文件覆盖率百分比,类型为 float64。
  • function_lines: 函数行数,类型为 int64。
  • mccabe: 函数 McCabe 复杂度,类型为 int64。
  • coverage: 函数覆盖率百分比,类型为 float64。
  • docstring_lines: 文档字符串行数,类型为 int64。
  • function_nodoc: 不包含文档字符串的函数源代码,类型为字符串。
  • id: 函数唯一 ID,类型为 int64。

数据集分割

  • train: 训练集,包含 11168 个样本,总字节数为 22383711。

数据集大小

  • 下载大小: 6805239 字节
  • 数据集大小: 22383711 字节

配置

  • default: 默认配置,训练集数据文件路径为 data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作