MADE-WIC

Name: MADE-WIC
Creator: 博尔扎诺自由大学
Published: 2024-08-10 00:32:38
License: 暂无描述

arXiv2024-08-10 更新2024-08-14 收录

下载链接：

http://arxiv.org/abs/2408.05163v1

下载链接

链接失效反馈

官方服务：

资源简介：

MADE-WIC数据集由博尔扎诺自由大学创建，包含约86万条代码函数和超过270万条相关注释，来源于12个开源项目。该数据集通过融合现有数据集构建，旨在为研究人员提供一个用于测试和比较代码弱点和技术债务检测工具的精选数据集。数据集的创建过程包括数据提取、去重和多重注释，适用于软件维护和安全领域的研究，旨在解决代码质量和安全性的问题。

The MADE-WIC dataset was created by the Free University of Bozen-Bolzano. It contains approximately 860,000 code functions and over 2.7 million associated annotations, sourced from 12 open-source projects. Constructed by integrating existing datasets, this dataset aims to provide researchers with a curated dataset for testing and comparing code weakness and technical debt detection tools. The dataset creation process includes data extraction, deduplication, and multi-round annotation. It is applicable to research in the fields of software maintenance and software security, and aims to address issues related to code quality and security.

提供机构：

博尔扎诺自由大学

创建时间：

2024-08-10

搜集汇总

数据集介绍

构建方式

MADE-WIC数据集的构建融合了现有的三个数据集（WeakSATD、Devign和Big-Vul），通过数据融合技术，统一了数据表示形式，并对函数和注释进行了多角度的标注。数据集包含了约860K个代码函数和超过270万条相关注释，源自12个开源项目。

使用方法

使用MADE-WIC数据集时，研究者可以根据需要选择不同的标注子集进行 vulnerability、technical debt 或 security concern 的分类任务。数据集支持对预训练深度学习模型进行微调，以适应下游任务的需求。同时，研究者可以通过对比不同标注技术对相同数据的应用效果，来理解不同技术对结果的影响。

背景与挑战

背景概述

MADE-WIC数据集是由Moritz Mock, Jorge Melegati, Max Kretschmann, Nicolás E. Díaz Ferreyra和Barbara Russo等研究人员于2024年创建的，旨在为技术债务和代码弱点检测提供经过多重注释的函数和评论的大型数据集。该数据集汇集了12个开源项目的约860K个函数和超过270万个相关评论，是首个提供针对技术债务、弱点和安全关切进行注释的数据集。MADE-WIC的创建目的是为了提供一个经过精心策划的数据集，以便研究人员可以在其上测试和比较用于代码弱点和技术债务检测的工具。

当前挑战

在构建MADE-WIC数据集的过程中，研究人员面临了多个挑战。首先，数据集的构建依赖于不同来源的数据融合，这要求统一不同的数据模式和注释方法。其次，确保数据集的质量，包括准确性、一致性、唯一性和完整性，需要精细的数据处理和人工审核过程。此外，数据集的构建还需要考虑领域问题，如图像分类中的挑战，即如何准确地识别和注释代码中的弱点和技术债务。

常用场景

经典使用场景

MADE-WIC数据集的典型应用场景在于对代码中的弱点和技术债务进行检测与研究。通过融合多个现有数据集，并提供统一的注释模式，MADE-WIC使得研究人员能够在控制数据集构建偏差的同时，评估其工具在弱点检测和技术债务识别方面的性能。

解决学术问题

该数据集解决了现有数据集在模式、注释方法和数据集构建方面存在的差异性问题，这些差异可能会阻碍研究的复制和泛化。MADE-WIC通过提供多种注释和同一实例的不同属性，帮助学术界克服了这些挑战，为软件维护和优化提供了有力的研究工具。

实际应用

在实际应用中，MADE-WIC可用于训练深度学习模型，如CodeBERT，以对代码进行分类，识别技术债务和弱点。此外，它还可以用于代码摘要生成和代码掩码任务，以评估不同转换器在检索模式方面的能力。

数据集最近研究