claudios/cubert_ETHPy150Open
收藏Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/claudios/cubert_ETHPy150Open
下载链接
链接失效反馈官方服务:
资源简介:
CuBERT ETH150 Open Benchmarks数据集包含6个Python基准测试,这些基准测试源自ETH Py150 Open数据集。每个基准测试都包含训练、验证和测试分割,并且每个示例都存储为分片的文本文件,每行对应一个JSON对象编码的示例。数据集的主要任务类别是文本分类,具体包括函数-文档字符串分类、异常分类、变量误用分类、操作数交换分类、错误二元操作符分类以及变量误用定位和修复。每个任务都有详细的字段描述,如函数源代码、标签、信息等。
CuBERT ETH150 Open Benchmarks数据集包含6个Python基准测试,这些基准测试源自ETH Py150 Open数据集。每个基准测试都包含训练、验证和测试分割,并且每个示例都存储为分片的文本文件,每行对应一个JSON对象编码的示例。数据集的主要任务类别是文本分类,具体包括函数-文档字符串分类、异常分类、变量误用分类、操作数交换分类、错误二元操作符分类以及变量误用定位和修复。每个任务都有详细的字段描述,如函数源代码、标签、信息等。
提供机构:
claudios
原始信息汇总
CuBERT ETH150 Open Benchmarks 数据集概述
数据集信息
1. Exception Classification 数据集
- 配置名称: exception_datasets
- 特征:
function: 字符串,函数的源代码文本,其中一个异常类型已被替换为特殊标记“HOLE”label: 字符串,被屏蔽的异常类型info: 字符串,示例构造的未格式化描述
- 分割:
train: 25423003 字节,18480 个示例dev: 2845822 字节,2088 个示例test: 14064500 字节,10348 个示例
- 下载大小: 16935273 字节
- 数据集大小: 42333325 字节
2. Function-Docstring Classification 数据集
- 配置名称: function_docstring_datasets
- 特征:
function: 字符串,函数的源代码文本docstring: 字符串,函数的文档字符串label: 字符串,示例的标签(“Incorrect”或“Correct”)info: 字符串,示例构造的未格式化描述
- 分割:
train: 261700491 字节,340846 个示例dev: 28498757 字节,37592 个示例test: 141660242 字节,186698 个示例
- 下载大小: 121724722 字节
- 数据集大小: 431859490 字节
3. Swapped-Operand Classification 数据集
- 配置名称: swapped_operands_datasets
- 特征:
function: 字符串,函数的源代码文本label: 字符串,示例的标签(“Correct”或“Swapped operands”)info: 字符串,示例构造的未格式化描述
- 分割:
train: 271097336 字节,236246 个示例dev: 29986397 字节,26118 个示例test: 148544957 字节,130972 个示例
- 下载大小: 105243573 字节
- 数据集大小: 449628690 字节
4. Variable-Misuse Classification 数据集
- 配置名称: variable_misuse_datasets
- 特征:
function: 字符串,函数的源代码文本label: 字符串,示例的标签(“Correct”或“Variable misuse”)info: 字符串,示例构造的未格式化描述
- 分割:
train: 474283355 字节,700708 个示例dev: 50447683 字节,75478 个示例test: 251591448 字节,378440 个示例
- 下载大小: 231302039 字节
- 数据集大小: 776322486 字节
5. Variable-Misuse Localization and Repair 数据集
- 配置名称: variable_misuse_repair_datasets
- 特征:
function: 字符串列表,使用词汇表从项目 b 中标记化的函数源代码target_mask: 整数列表(0 或 1),标记正确修复的位置error_location_mask: 整数列表(0 或 1),标记错误位置candidate_mask: 整数列表(0 或 1),标记候选修复位置provenance: 字符串,示例构造的未格式化描述
- 分割:
train: 4417505142 字节,700708 个示例dev: 469436314 字节,75478 个示例test: 2331355329 字节,378440 个示例
- 下载大小: 498300512 字节
- 数据集大小: 7218296785 字节
6. Wrong-Binary-Operator Classification 数据集
- 配置名称: wrong_binary_operator_datasets
- 特征:
function: 字符串,函数的源代码文本label: 字符串,示例的标签(“Correct”或“Wrong binary operator”)info: 字符串,示例构造的未格式化描述
- 分割:
train: 439948844 字节,459400 个示例dev: 47620848 字节,49804 个示例test: 239409450 字节,251804 个示例
- 下载大小: 163088211 字节
- 数据集大小: 726979142 字节



