five

Java code smell datasets|代码异味检测数据集|Java编程数据集

收藏
arXiv2024-12-18 更新2024-12-25 收录
代码异味检测
Java编程
下载链接:
http://arxiv.org/abs/2412.13801v1
下载链接
链接失效反馈
资源简介:
该数据集由武汉大学计算机科学学院的研究团队从GitHub上挖掘的Java代码库构建而成,专门用于方法级代码异味检测。数据集包含两种广泛研究的方法级代码异味:复杂条件(Complex Conditional)和复杂方法(Complex Method)。数据集的创建过程结合了传统的启发式检测器和人工验证,确保了数据的高质量。该数据集主要用于评估参数高效微调(PEFT)方法在代码异味检测中的效果,旨在解决传统启发式方法和深度学习方法在代码异味检测中的不足。
提供机构:
武汉大学计算机科学学院
创建时间:
2024-12-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建过程始于从GitHub上筛选出符合特定条件的Java代码库,包括创建时间、星标数量和代码行数等。随后,使用DesigniteJava工具检测潜在的代码异味,并通过CodeSplitJava工具将代码库中的方法分割成独立的文件。为了确保数据质量,研究人员对检测到的代码异味进行了手动验证,排除了误报和漏报的情况。最终,数据集被划分为训练集、验证集和测试集,比例为8:1:1,以确保数据分布的均衡性。
特点
该数据集专注于两种方法级别的代码异味:复杂条件(Complex Conditional)和复杂方法(Complex Method)。这些代码异味是软件开发中常见的质量问题,可能导致代码维护困难。数据集中的每个样本都经过严格的手动验证,确保了其高质量和准确性。此外,数据集的构建基于最新的GitHub项目,反映了当前软件开发实践中的真实情况。
使用方法
该数据集可用于训练和评估代码异味检测模型,特别是基于大语言模型(LLMs)和小语言模型(LMs)的检测方法。研究人员可以使用该数据集进行参数高效微调(PEFT)实验,比较不同微调方法在代码异味检测任务中的表现。此外,数据集还可用于研究低资源场景下的模型性能,以及不同超参数设置对检测效果的影响。通过该数据集,研究人员可以探索如何优化模型以提高代码异味检测的准确性和效率。
背景与挑战
背景概述
Java code smell datasets 是由武汉大学、新加坡管理大学等机构的研究人员于2024年创建的高质量数据集,旨在支持方法级代码异味检测的研究。代码异味(Code Smells)是指代码中存在的潜在不良实践,可能导致软件缺陷或维护问题。传统的代码异味检测方法依赖于启发式规则或机器学习技术,但这些方法在性能上存在不足。随着大语言模型(LLMs)在软件工程领域的广泛应用,参数高效微调(PEFT)方法成为了一种新的解决方案,能够在减少计算资源消耗的同时,提升模型在特定任务中的表现。该数据集的构建基于GitHub上的Java代码库,重点关注了两种常见的方法级代码异味:复杂条件(Complex Conditional)和复杂方法(Complex Method)。通过系统评估PEFT方法在小模型和大模型上的表现,该数据集为代码异味检测领域提供了新的研究视角和实践指导。
当前挑战
Java code smell datasets 面临的挑战主要包括两个方面。首先,代码异味检测本身具有较高的复杂性,尤其是复杂条件和复杂方法的识别,传统的启发式方法和机器学习模型在准确性和泛化能力上存在局限。尽管PEFT方法在减少计算资源消耗方面表现出色,但其在代码异味检测任务中的有效性尚未得到充分验证,尤其是在小模型和大模型之间的性能差异仍需进一步探索。其次,数据集的构建过程中也面临诸多挑战,例如如何从GitHub中筛选高质量的代码样本,如何通过手动验证确保数据集的准确性,以及如何在低资源场景下保持模型的性能。此外,不同PEFT方法在不同模型上的表现差异较大,如何选择最适合的微调方法也是一个重要的研究问题。这些挑战不仅影响了代码异味检测的准确性,也对模型的实用性和可扩展性提出了更高的要求。
常用场景
经典使用场景
Java code smell datasets 主要用于方法级别的代码异味检测,特别是在软件开发过程中识别和修复潜在的代码质量问题。这些数据集通过提供高质量的代码样本,帮助研究人员和开发者训练和评估机器学习模型,尤其是基于大语言模型(LLMs)的检测方法。通过使用这些数据集,研究人员能够系统地评估不同参数高效微调(PEFT)方法在代码异味检测任务中的表现,从而优化模型的性能。
实际应用
在实际应用中,Java code smell datasets 可以用于开发自动化代码异味检测工具,帮助开发者在编写代码时实时识别潜在的代码质量问题。通过结合大语言模型和参数高效微调方法,这些工具能够在开发过程中提供即时反馈,帮助开发者及时修复代码异味,从而提高代码的可维护性和可读性。此外,该数据集还可以用于企业内部的代码质量评估,帮助团队识别和修复长期存在的代码问题。
衍生相关工作
Java code smell datasets 衍生了许多相关的研究工作,特别是在代码异味检测和参数高效微调(PEFT)方法的结合领域。例如,基于该数据集的研究工作探索了不同PEFT方法(如提示微调、前缀微调、LoRA等)在代码异味检测中的表现,并提出了优化模型性能的策略。此外,该数据集还启发了跨语言代码异味检测的研究,推动了代码质量分析工具的发展。这些衍生工作进一步扩展了代码异味检测的应用场景,并为未来的研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中国逐日格点降水数据集V2(1960–2024,0.1°)

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心 收录

coins-dataset

一个按面额分类的欧元硬币图像数据集,数据结构适合使用Keras的`ImageDataGenerator.flow_from_directory()`方法读取。源图像采用A4大小的白色背景顶部拍摄,通过`extract.py`脚本进行后期处理,以隔离单个硬币并标准化大小,然后进行手动分类。

github 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。

OpenDataLab 收录