SATDAUG
收藏arXiv2024-03-12 更新2024-06-21 收录
下载链接:
https://zenodo.org/records/10521909
下载链接
链接失效反馈官方服务:
资源简介:
SATDAUG数据集是由伯努利研究所和格罗宁根大学创建的,旨在通过平衡和增强现有数据集来提高自我承认的技术债务(SATD)检测的准确性。该数据集包含来自源代码注释、问题跟踪器、拉取请求和提交消息的多种软件开发工件,总计约2370万条记录。创建过程中,研究者使用了基于ChatGPT的语言模型进行文本增强,确保数据集的平衡性和丰富性。SATDAUG数据集主要应用于机器学习和深度学习模型的训练和评估,以解决SATD识别和分类中的类别不平衡问题,从而提高软件维护的效率和质量。
SATDAUG dataset was developed by the Bernoulli Institute and the University of Groningen, with the goal of enhancing the accuracy of Self-Admitted Technical Debt (SATD) detection by balancing and augmenting existing datasets. This dataset encompasses a diverse range of software development artifacts sourced from source code comments, issue trackers, pull requests, and commit messages, totaling approximately 23.7 million records. During the dataset construction process, researchers utilized ChatGPT-based language models for text augmentation to ensure the dataset's balance and richness. The SATDAUG dataset is primarily intended for training and evaluating machine learning and deep learning models, aiming to address the class imbalance issue in SATD identification and classification, thereby improving the efficiency and quality of software maintenance.
提供机构:
伯努利研究所,格罗宁根大学
创建时间:
2024-03-12
搜集汇总
数据集介绍

背景与挑战
背景概述
SATDAUG数据集是一个用于检测自承认技术债务(SATD)的复制包,包含来自代码注释、提交消息、问题部分和拉取请求的四个CSV文件,每个文件标注了代码/设计债务、文档债务、测试债务、需求债务或非SATD类别。该数据集通过AugGPT技术进行了数据增强,以解决类别不平衡问题,并采用BiLSTM和BERT深度学习架构提升SATD识别与分类性能,支持多源开源项目数据。
以上内容由遇见数据集搜集并总结生成



