five

claudios/cubert_ETHPy150Open

收藏
Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/claudios/cubert_ETHPy150Open
下载链接
链接失效反馈
官方服务:
资源简介:
CuBERT ETH150 Open Benchmarks数据集包含6个Python基准测试,这些基准测试源自ETH Py150 Open数据集。每个基准测试都包含训练、验证和测试分割,并且每个示例都存储为分片的文本文件,每行对应一个JSON对象编码的示例。数据集的主要任务类别是文本分类,具体包括函数-文档字符串分类、异常分类、变量误用分类、操作数交换分类、错误二元操作符分类以及变量误用定位和修复。每个任务都有详细的字段描述,如函数源代码、标签、信息等。

CuBERT ETH150 Open Benchmarks数据集包含6个Python基准测试,这些基准测试源自ETH Py150 Open数据集。每个基准测试都包含训练、验证和测试分割,并且每个示例都存储为分片的文本文件,每行对应一个JSON对象编码的示例。数据集的主要任务类别是文本分类,具体包括函数-文档字符串分类、异常分类、变量误用分类、操作数交换分类、错误二元操作符分类以及变量误用定位和修复。每个任务都有详细的字段描述,如函数源代码、标签、信息等。
提供机构:
claudios
原始信息汇总

CuBERT ETH150 Open Benchmarks 数据集概述

数据集信息

1. Exception Classification 数据集

  • 配置名称: exception_datasets
  • 特征:
    • function: 字符串,函数的源代码文本,其中一个异常类型已被替换为特殊标记“HOLE
    • label: 字符串,被屏蔽的异常类型
    • info: 字符串,示例构造的未格式化描述
  • 分割:
    • train: 25423003 字节,18480 个示例
    • dev: 2845822 字节,2088 个示例
    • test: 14064500 字节,10348 个示例
  • 下载大小: 16935273 字节
  • 数据集大小: 42333325 字节

2. Function-Docstring Classification 数据集

  • 配置名称: function_docstring_datasets
  • 特征:
    • function: 字符串,函数的源代码文本
    • docstring: 字符串,函数的文档字符串
    • label: 字符串,示例的标签(“Incorrect”或“Correct”)
    • info: 字符串,示例构造的未格式化描述
  • 分割:
    • train: 261700491 字节,340846 个示例
    • dev: 28498757 字节,37592 个示例
    • test: 141660242 字节,186698 个示例
  • 下载大小: 121724722 字节
  • 数据集大小: 431859490 字节

3. Swapped-Operand Classification 数据集

  • 配置名称: swapped_operands_datasets
  • 特征:
    • function: 字符串,函数的源代码文本
    • label: 字符串,示例的标签(“Correct”或“Swapped operands”)
    • info: 字符串,示例构造的未格式化描述
  • 分割:
    • train: 271097336 字节,236246 个示例
    • dev: 29986397 字节,26118 个示例
    • test: 148544957 字节,130972 个示例
  • 下载大小: 105243573 字节
  • 数据集大小: 449628690 字节

4. Variable-Misuse Classification 数据集

  • 配置名称: variable_misuse_datasets
  • 特征:
    • function: 字符串,函数的源代码文本
    • label: 字符串,示例的标签(“Correct”或“Variable misuse”)
    • info: 字符串,示例构造的未格式化描述
  • 分割:
    • train: 474283355 字节,700708 个示例
    • dev: 50447683 字节,75478 个示例
    • test: 251591448 字节,378440 个示例
  • 下载大小: 231302039 字节
  • 数据集大小: 776322486 字节

5. Variable-Misuse Localization and Repair 数据集

  • 配置名称: variable_misuse_repair_datasets
  • 特征:
    • function: 字符串列表,使用词汇表从项目 b 中标记化的函数源代码
    • target_mask: 整数列表(0 或 1),标记正确修复的位置
    • error_location_mask: 整数列表(0 或 1),标记错误位置
    • candidate_mask: 整数列表(0 或 1),标记候选修复位置
    • provenance: 字符串,示例构造的未格式化描述
  • 分割:
    • train: 4417505142 字节,700708 个示例
    • dev: 469436314 字节,75478 个示例
    • test: 2331355329 字节,378440 个示例
  • 下载大小: 498300512 字节
  • 数据集大小: 7218296785 字节

6. Wrong-Binary-Operator Classification 数据集

  • 配置名称: wrong_binary_operator_datasets
  • 特征:
    • function: 字符串,函数的源代码文本
    • label: 字符串,示例的标签(“Correct”或“Wrong binary operator”)
    • info: 字符串,示例构造的未格式化描述
  • 分割:
    • train: 439948844 字节,459400 个示例
    • dev: 47620848 字节,49804 个示例
    • test: 239409450 字节,251804 个示例
  • 下载大小: 163088211 字节
  • 数据集大小: 726979142 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作