se2p/code-readability-krod

Name: se2p/code-readability-krod
Creator: se2p
Published: 2024-03-20 16:20:04
License: 暂无描述

Hugging Face2024-03-20 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/se2p/code-readability-krod

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Java Code Readability Merged & Modified，包含69276个Java代码片段及其可读性评分。这些代码片段来自GitHub，并经过自动处理和标注。数据集的主要目标是训练Java源代码的可读性分类器。数据集的创建过程包括从GitHub挖掘高质量代码片段并标注其可读性，以及通过修改代码降低其可读性。数据集的标签是基于五点Likert量表自动分配的，1表示非常不可读，5表示非常可读。

提供机构：

se2p

原始信息汇总

Java Code Readability Merged & Modified 数据集概述

数据集基本信息

语言: 英语
许可证: CC-BY-4.0
大小类别: 10K<n<100K
任务类别: 文本分类
标签: readability, code, source code, code readability, Java

数据集特征

代码片段: 字符串类型
评分: 浮点数类型

数据集结构

名称: 字符串类型
代码片段: 字符串类型
评分: 浮点数类型

数据集分割

训练集: 48684700 字节, 69276 个样本
下载大小: 21595103 字节
数据集大小: 48684700 字节

数据集配置

配置名称: default
数据文件:
- 分割: train
- 路径: data/train-*

数据集描述

包含: 69276 个 Java 代码片段及可读性评分
来源: 从 GitHub 挖掘并自动处理和标注
结构: json { "code_snippet": "...", # Java 源代码片段 "score": "...", # 可读性评分 "name": "..." # 代码片段的来源名称 }

数据集用途

主要目标: 训练 Java 源代码的可读性分类器

数据集创建

创建理由: 推进代码可读性分类研究
方法: 自动生成，不同于以往的人工标注方法
源数据: 来自 100 个公共 GitHub 仓库

数据收集与处理

高质量代码挖掘: 标注为高可读性，评分 3.68
代码修改: 降低可读性，评分 3.26

数据集限制

评分准确性: 基于调查的平均估计，可能不准确
平均评分:
- 挖掘代码: 3.68
- 修改代码: 3.26