se2p/code-readability-merged
收藏Java Code Readability Merged Dataset
数据集描述
- 语言: 英语
- 许可证: 未知
- 大小类别: n<1K
- 任务类别: 文本分类
- 标签: readability, code, source code, code readability, Java
- 特征:
code_snippet: 字符串score: 浮点数
数据集信息
- 特征:
code_snippet: 字符串score: 浮点数
- 分割:
train: 354539 字节, 421 个样本
- 下载大小: 139793 字节
- 数据集大小: 354539 字节
数据集详情
数据集描述
- 包含: 421 个 Java 代码片段及其可读性评分
- 来源: 多个科学论文 [1, 2, 3]
数据集结构
- 每个条目包含:
code_snippet: Java 源代码片段score: 可读性评分(1.0 非常不可读 到 5.0 非常可读)
数据集创建
数据收集和处理
- 数据预处理: 对每个代码片段的可读性评分进行平均,并从三个来源合并
- 源数据: Buse, Dorn 和 Scalabrino 的论文
偏差、风险和限制
- 数据集大小: 非常小
- 评分者: 主要是计算机科学学生,不代表一般 Java 程序员群体
推荐用途
- 用于训练: 小型 Java 代码可读性分类器
引用
bibtex @article{buse2009learning, title={Learning a metric for code readability}, author={Buse, Raymond PL and Weimer, Westley R}, journal={IEEE Transactions on software engineering}, volume={36}, number={4}, pages={546--558}, year={2009}, publisher={IEEE} }
@inproceedings{dorn2012general, title={A General Software Readability Model}, author={Jonathan Dorn}, year={2012}, url={https://api.semanticscholar.org/CorpusID:14098740} }
@article{scalabrino2018comprehensive, title={A comprehensive model for code readability}, author={Scalabrino, Simone and Linares-V{a}squez, Mario and Oliveto, Rocco and Poshyvanyk, Denys}, journal={Journal of Software: Evolution and Process}, volume={30}, number={6}, pages={e1958}, year={2018}, publisher={Wiley Online Library} }




