five

SmellyCode++.csv

收藏
DataCite Commons2025-03-03 更新2025-05-07 收录
下载链接:
https://figshare.com/articles/dataset/SmellyCode_csv/28519385
下载链接
链接失效反馈
官方服务:
资源简介:
The dataset provides a well-rounded representation of code quality by incorporating both textual and numerical features, making it valuable for machine learning and code analysis tasks. The textual feature, represented by a "Code" column, contains Java classes or methods that exhibit code smells. These code snippets have been preprocessed to remove unnecessary elements like comments, empty lines, and extra newline characters, ensuring consistency. In addition, the dataset includes 14 numerical features that capture various code metrics, such as logical lines, distinct operators and operands, cyclomatic complexity, and effort estimation. These numerical attributes help assess code complexity, maintainability, and potential defects. The dataset’s statistical summaries and visual representations further highlight the distribution of these features, making it a robust resource for empirical research and model training.

本数据集通过整合文本与数值两类特征,全面呈现代码质量的多维度特征,可有效支撑机器学习与代码分析相关任务,具备较高的研究与应用价值。其中以“代码(Code)”列表示的文本特征,包含存在代码坏味(code smells)的Java类或方法代码片段。上述代码片段已完成预处理操作,移除了注释、空行及多余换行符等冗余元素,确保数据一致性。此外,数据集还包含14项数值特征,用于捕获各类代码度量指标,例如逻辑行数、唯一运算符与操作数、圈复杂度(cyclomatic complexity)以及工作量评估值。这些数值属性可用于评估代码的复杂度、可维护性与潜在缺陷风险。该数据集附带的统计汇总与可视化展示,进一步明晰了各类特征的分布情况,是支撑实证研究与模型训练的稳健可靠资源。
提供机构:
figshare
创建时间:
2025-03-02
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含预处理后的Java代码片段和14个数值特征,用于代码异味检测和代码质量分析,适用于机器学习和实证研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作