claudios/dypybench_functions
收藏Hugging Face2023-08-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/claudios/dypybench_functions
下载链接
链接失效反馈官方服务:
资源简介:
DyPyBench Functions数据集由Piyush Krishan Bajaj在斯图加特大学软件工程研究所的软件实验室构建,包含了来自GitHub的50个开源项目。使用Nathan Cooper的`function_parser`工具从项目中提取所有函数,并排除了虚拟环境中的库函数。此外,还对所有项目进行了测试并生成了覆盖率报告。数据集的列信息包括函数的唯一ID、项目ID、项目名称、SHA提交哈希、GitHub URL、文件路径、函数起始和结束行号、函数行数、函数标识符、参数、函数源代码、无文档字符串的函数源代码、文档字符串、文档字符串行数、文档字符串摘要、返回语句、文件覆盖率、执行行数、执行行数百分比、缺失行数、缺失行数百分比、是否覆盖、McCabe复杂度和函数覆盖率百分比。
提供机构:
claudios
原始信息汇总
DyPyBench Functions 数据集
数据集概述
DyPyBench Functions 数据集是由斯图加特大学软件工程研究所的 Piyush Krishan Bajaj 构建的,包含来自 GitHub 的 50 个开源项目。该数据集通过使用基于 GitHub 的 CodeSearchNet 的 function_parser 工具提取所有函数,并生成覆盖率报告。
数据集特征
数据集包含以下特征:
- nwo: 项目名称,格式为 repo/project,类型为字符串。
- sha: 提交哈希,类型为字符串。
- path: 包含函数的文件路径,相对于项目根目录,类型为字符串。
- identifier: 函数标识符,类型为字符串。
- parameters: 函数参数,类型为字符串。
- return_statement: 函数返回语句,类型为字符串。
- docstring: 函数文档字符串,类型为字符串。
- docstring_summary: 函数文档字符串摘要,类型为字符串。
- func_begin: 函数开始行号,类型为 int64。
- func_end: 函数结束行号,类型为 int64。
- function: 函数源代码,包括文档字符串,类型为字符串。
- url: 函数行在 GitHub 上的 URL,类型为字符串。
- project: DyPyBench 项目 ID,类型为 int64。
- executed_lines: 执行的行号序列,类型为 int64 序列。
- executed_lines_pc: 执行行数占总行数的百分比,类型为 float64。
- missing_lines: 缺失的行号序列,类型为 int64 序列。
- missing_lines_pc: 缺失行数占总行数的百分比,类型为 float64。
- covered: 是否所有行都已执行或没有缺失行,类型为布尔值。
- filecoverage: 文件覆盖率百分比,类型为 float64。
- function_lines: 函数行数,类型为 int64。
- mccabe: 函数 McCabe 复杂度,类型为 int64。
- coverage: 函数覆盖率百分比,类型为 float64。
- docstring_lines: 文档字符串行数,类型为 int64。
- function_nodoc: 不包含文档字符串的函数源代码,类型为字符串。
- id: 函数唯一 ID,类型为 int64。
数据集分割
- train: 训练集,包含 11168 个样本,总字节数为 22383711。
数据集大小
- 下载大小: 6805239 字节
- 数据集大小: 22383711 字节
配置
- default: 默认配置,训练集数据文件路径为
data/train-*。



