se2p/code-readability-merged

Name: se2p/code-readability-merged
Creator: se2p
Published: 2023-10-18 14:33:15
License: 暂无描述

Hugging Face2023-10-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/se2p/code-readability-merged

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Java Code Readability Merged Dataset，包含了421个Java代码片段及其可读性评分。这些数据是从多个科学论文中汇总而来的，主要用于训练Java源代码的可读性分类器。数据集的结构包括两个主要特征：code_snippet（Java源代码片段）和score（可读性评分）。评分是基于五级Likert量表，1表示非常不可读，5表示非常可读，评分是所有参与者的平均分。数据集由Buse Raymond PL、Dorn Jonathan和Sclabrino Simone整理，并由Krodinger Lukas共享。数据集的创建目的是为了推进代码可读性分类的研究，并且是现有数据集的合并和标准化版本。数据集的来源包括Buse、Dorn和Scalabrino的研究论文。数据集的局限性在于其规模较小，且评分主要由计算机科学学生提供，可能无法代表所有Java程序员。

This dataset is named Java Code Readability Merged Dataset. It contains 421 Java code snippets along with their readability scores. The data is aggregated from multiple scientific papers and is primarily intended for training readability classifiers for Java source code. The dataset structure includes two core features: `code_snippet` (Java source code snippet) and `score` (readability score). The scores are based on a 5-point Likert scale, where 1 indicates extremely unreadable and 5 indicates extremely readable, and the final score is the average rating across all participants. This dataset was curated by Buse Raymond PL, Dorn Jonathan, and Sclabrino Simone, and shared by Krodinger Lukas. It was developed to advance research on code readability classification, and is a merged and standardized version of existing datasets. The sources of the dataset include the research papers authored by Buse, Dorn, and Scalabrino. The limitations of the dataset include its relatively small scale, and the fact that the scores were primarily provided by computer science students, which may not be representative of all Java programmers.

提供机构：

se2p

原始信息汇总

Java Code Readability Merged Dataset

数据集描述

语言: 英语
许可证: 未知
大小类别: n<1K
任务类别: 文本分类
标签: readability, code, source code, code readability, Java
特征:
- code_snippet: 字符串
- score: 浮点数

数据集信息

特征:
- code_snippet: 字符串
- score: 浮点数
分割:
- train: 354539 字节, 421 个样本
下载大小: 139793 字节
数据集大小: 354539 字节

数据集详情

数据集描述

包含: 421 个 Java 代码片段及其可读性评分
来源: 多个科学论文 [1, 2, 3]

数据集结构

每个条目包含:
- code_snippet: Java 源代码片段
- score: 可读性评分（1.0 非常不可读到 5.0 非常可读）

数据集创建

数据收集和处理

数据预处理: 对每个代码片段的可读性评分进行平均，并从三个来源合并
源数据: Buse, Dorn 和 Scalabrino 的论文

偏差、风险和限制

数据集大小: 非常小
评分者: 主要是计算机科学学生，不代表一般 Java 程序员群体

引用

bibtex @article{buse2009learning, title={Learning a metric for code readability}, author={Buse, Raymond PL and Weimer, Westley R}, journal={IEEE Transactions on software engineering}, volume={36}, number={4}, pages={546--558}, year={2009}, publisher={IEEE} }

@inproceedings{dorn2012general, title={A General Software Readability Model}, author={Jonathan Dorn}, year={2012}, url={https://api.semanticscholar.org/CorpusID:14098740} }

@article{scalabrino2018comprehensive, title={A comprehensive model for code readability}, author={Scalabrino, Simone and Linares-V{a}squez, Mario and Oliveto, Rocco and Poshyvanyk, Denys}, journal={Journal of Software: Evolution and Process}, volume={30}, number={6}, pages={e1958}, year={2018}, publisher={Wiley Online Library} }

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码可读性研究对于提升软件质量与维护效率至关重要。该数据集通过整合Buse、Dorn和Scalabrino三项独立研究中的调查数据构建而成，涵盖了来自多个开源Java项目的代码片段。构建过程中，研究者从原始调查中提取了421个Java代码片段，并对每个片段的多位参与者评分进行平均处理，生成了介于1.0至5.0之间的可读性分数。数据合并时未对评分者数量或片段选择标准进行加权调整，仅进行了简单的归一化处理，旨在为后续研究提供统一的基础数据。

特点

该数据集聚焦于Java代码的可读性评估，其核心特征在于将代码片段与量化评分相结合。每个条目包含一个字符串形式的代码片段和一个浮点数形式的平均可读性分数，分数基于李克特五级量表计算，反映了从“非常不可读”到“非常可读”的连续谱系。数据规模相对较小，仅包含421个样本，且评分主要来源于计算机科学专业的学生群体，这在一定程度上限制了其代表性和泛化能力。然而，作为首个公开的合并数据集，它为训练轻量级可读性分类器提供了宝贵的标准化资源。

使用方法

该数据集主要用于训练Java代码可读性分类模型。用户可通过Hugging Face的`datasets`库直接加载，使用`load_dataset("se2p/code-readability-merged")`指令即可获取全部数据，数据仅以训练集形式提供，未划分验证或测试子集。加载后，数据集可转换为列表或其他格式以适配不同机器学习框架。研究者可利用代码片段作为输入特征，可读性分数作为监督标签，构建回归或分类模型，以自动化评估代码的可读性水平，从而辅助代码审查与优化实践。

背景与挑战

背景概述

在软件工程领域，代码可读性作为衡量源代码易于理解和维护程度的关键属性，长期以来受到学术界与工业界的共同关注。Java Code Readability Merged Dataset由帕绍大学软件工程II教席的Lukas Krodinger等人于近年整合发布，其核心研究问题聚焦于如何通过机器学习方法自动评估Java代码的可读性水平。该数据集融合了Buse等人（2009）、Dorn（2012）以及Scalabrino等人（2018）三项经典研究中的专家标注数据，共包含421个Java代码片段及其对应的人类评分，为代码质量分析、自动化编程辅助等研究方向提供了重要的基准资源，推动了智能软件工程工具的发展。

当前挑战

该数据集旨在解决代码可读性自动评估这一复杂任务，其核心挑战在于可读性本身具有高度主观性，难以通过统一量化标准准确刻画。构建过程中的挑战主要体现在数据来源的异质性：原始研究在代码片段选取标准、参与者背景（如以计算机科学学生为主）及评分规模上存在显著差异，导致合并后数据的内在一致性可能受到影响。此外，数据集规模较小，仅包含421个样本，限制了复杂模型的训练潜力，且评分者群体缺乏工业界开发者代表性，可能引入领域适应性偏差。

常用场景

经典使用场景

在软件工程领域，代码可读性作为衡量软件质量的关键指标，直接影响着维护效率和协作成本。该数据集通过整合多个权威研究中的Java代码片段及其人工评分，为训练代码可读性分类模型提供了标准化的基准数据。研究者通常利用这些标注数据，构建监督学习模型，以自动评估代码的清晰度与易理解性，从而辅助代码审查与重构决策。

衍生相关工作

围绕该数据集衍生的经典工作包括基于深度学习的可读性预测模型，如使用卷积神经网络或Transformer架构从代码语法结构中提取特征。同时，研究者进一步扩展了其应用范围，结合程序分析技术探究可读性与软件缺陷的关联，并开发了跨语言可读性评估框架，推动了软件工程与人工智能的交叉创新。

数据集最近研究

se2p/code-readability-merged

Java Code Readability Merged Dataset

数据集描述

数据集信息

数据集详情

数据集描述

数据集结构

数据集创建

数据收集和处理

偏差、风险和限制

推荐用途

引用