five

SATD Repayment Dataset

收藏
arXiv2025-01-17 更新2025-02-25 收录
下载链接:
https://github.com/RISElabQueens/SATD-Auto-Repayment
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由加拿大女王大学、曼尼托巴大学和北卡罗来纳州立大学的研究团队创建,旨在支持自动化技术债务(SATD)还款的研究。数据集包含Python和Java两种编程语言的SATD还款样本,总计156,069条,其中Python数据集58,722条,Java数据集97,347条。数据来源于多个开源代码库的提交历史,经过10步过滤流程提取,并使用LLM进行相关性过滤,确保数据的高质量和代表性。数据集的应用领域主要集中于软件工程中的技术债务管理,旨在通过自动化手段解决代码中的技术债务问题,提升代码质量和维护效率。

This dataset was created by research teams from Queen's University (Canada), the University of Manitoba, and North Carolina State University, with the objective of supporting research on automated Self-Admitted Technical Debt (SATD) repayment. It encompasses a total of 156,069 SATD repayment samples across two programming languages: Python and Java, including 58,722 samples for the Python subset and 97,347 samples for the Java subset. The data is extracted from the commit histories of multiple open-source code repositories through a 10-step filtering workflow, followed by relevance filtering using Large Language Models (LLMs) to guarantee high data quality and representativeness. The primary application domain of this dataset is technical debt management in software engineering, where it aims to address technical debt in code via automated methods to enhance code quality and maintenance efficiency.
提供机构:
加拿大女王大学计算学院, 加拿大曼尼托巴大学计算机科学系, 美国北卡罗来纳州立大学计算机科学系
创建时间:
2025-01-17
搜集汇总
数据集介绍
main_image_url
构建方式
SATD Repayment Dataset 是通过分析 GitHub 上 Python 和 Java 仓库的提交历史构建的。研究者使用语言无关的 SATD 追踪工具 SATD Tracker 从仓库中提取 SATD 项及其生命周期。为了确保数据集的质量,他们采用了一个 10 步过滤管道,包括删除非 ASCII 字符、去除重复项、去除包含非 SATD 项的更新等。此外,他们还使用 LLM 作为判断器,通过零样本提示过滤无关的 SATD 项,最终构建了包含 58,722 个 Python 项和 97,347 个 Java 项的两个大规模 SATD 偿还数据集。
特点
SATD Repayment Dataset 具有以下特点:1. 规模大:该数据集包含超过 58,000 个 Python 项和 97,000 个 Java 项,比现有的数据集规模大得多。2. 语言无关:数据集涵盖了 Python 和 Java 两种编程语言,可以用于跨语言的 SATD 偿还研究。3. 清洁度高:通过 10 步过滤管道和 LLM 判断器,数据集的清洁度得到了保证,减少了无关项的干扰。4. 包含详细信息:数据集提供了每个 SATD 项的详细信息,包括 GitHub 用户、项目名称、文件路径、创建和删除提交等。
使用方法
SATD Repayment Dataset 可以用于评估 LLM 在自动化 SATD 偿还方面的有效性。研究者提出了 BLEU-diff 和 CrystalBLEU-diff 两种基于 diff 的评估指标,以及新的 LEMOD 指标,用于更准确地评估代码更改的相关性。此外,数据集还可以用于训练和评估各种 LLM 模型,包括微调的小型模型和基于提示的大型模型。
背景与挑战
背景概述
Self-Admitted Technical Debt (SATD) refers to the intentional use of suboptimal solutions in software design or coding, typically to meet tight deadlines or address immediate resource constraints. SATD poses a significant challenge to software maintainability, as it can degrade code quality, increase maintenance costs, and hinder long-term software sustainability. The SATD Repayment Dataset was created to address this challenge by automating the repayment process. The dataset was created by Mohammad Sadegh Sheikhhaei and Yuan Tian from the School of Computing, Queen’s University, Canada, Shaowei Wang from the Department of Computer Science, University of Manitoba, Canada, and Bowen Xu from the Department of Computer Science, North Carolina State University, USA. The dataset has had a significant impact on the field of software engineering, providing a valuable resource for researchers studying automated SATD repayment.
当前挑战
The SATD Repayment Dataset presents several challenges. The first challenge is the representativeness and scalability of the dataset. The dataset must be representative of real-world software projects and scalable to handle large volumes of data. The second challenge is the removal of irrelevant SATD repayment samples. The dataset must be carefully filtered to ensure that only relevant samples are included. The third challenge is the limitations of existing evaluation metrics. The dataset requires new evaluation metrics that are both effective and interpretable for automated SATD repayment.
常用场景
经典使用场景
SATD Repayment Dataset主要应用于自动化自我承认技术债务偿还的研究,尤其是大型语言模型(LLMs)在代码修复和生成方面的应用。该数据集为研究人员提供了一个大规模的真实世界场景,用于训练和评估LLMs在SATD偿还任务中的效果。此外,该数据集还用于改进现有的评估指标,并提出新的评估指标,如BLEU-diff、CrystalBLEU-diff和Line-Level Exact Match on Diff (LEMOD),以更准确地评估SATD偿还的质量。
实际应用
SATD Repayment Dataset在实际应用中,可以帮助软件开发人员自动化自我承认技术债务偿还,从而提高代码质量和可维护性。通过使用LLMs和该数据集,可以开发出更智能的代码修复工具,帮助开发人员更快地修复代码中的技术债务,减少维护成本,并提高软件的长期可持续性。
衍生相关工作
SATD Repayment Dataset衍生了多个相关的研究工作,如针对SATD偿还任务的LLMs评估、评估指标的改进、SATD偿还数据集的创建和评估方法的研究等。这些研究工作有助于推动SATD偿还领域的进展,并为软件开发人员提供更有效的工具和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作