AIGCodeSet

Name: AIGCodeSet
Creator: TOBB大学经济与技术大学
Published: 2024-12-21 19:53:49
License: 暂无描述

arXiv2024-12-21 更新2024-12-25 收录

下载链接：

http://arxiv.org/abs/2412.16594v1

下载链接

链接失效反馈

官方服务：

资源简介：

AIGCodeSet是一个用于检测AI生成代码的数据集，由TOBB大学经济与技术大学和卡塔尔大学共同创建。该数据集专注于Python编程语言，包含4755条人类编写的代码和2828条AI生成的代码，涵盖317个编程任务。数据集的创建过程包括从CodeNet数据集中获取问题描述和人类编写的代码，使用CodeLlama 34B、Codestral 22B和Gemini 1.5 Flash模型生成AI代码，并进行后处理以确保代码质量。AIGCodeSet主要用于研究AI生成代码的检测，旨在解决教育领域中AI生成代码的伦理和学术诚信问题。

AIGCodeSet is a dataset for detecting AI-generated code, jointly created by TOBB University of Economics and Technology and Qatar University. This dataset focuses on the Python programming language, containing 4755 human-written code snippets and 2828 AI-generated code snippets, covering 317 programming tasks. The dataset creation process involves acquiring problem descriptions and human-written code from the CodeNet dataset, generating AI code using models including CodeLlama 34B, Codestral 22B, and Gemini 1.5 Flash, followed by post-processing to ensure code quality. AIGCodeSet is primarily used for research on AI-generated code detection, aiming to address ethical and academic integrity issues related to AI-generated code in the educational context.

提供机构：

TOBB大学经济与技术大学

创建时间：

2024-12-21

搜集汇总

数据集介绍

构建方式

AIGCodeSet数据集的构建过程基于对AI生成代码检测的需求，首先从CodeNet数据集中筛选出317个Python编程问题，并从中提取了4,755个人工编写的代码片段，涵盖了成功提交、运行时错误和错误输出三种状态。随后，利用CodeLlama 34B、Codestral 22B和Gemini 1.5 Flash三种大语言模型（LLM），分别在三种场景下生成AI代码：从问题描述生成代码、修复包含运行时错误的代码以及纠正输出错误的代码。生成过程中，通过手动后处理步骤去除与代码无关的LLM输出，最终形成了包含2,828个AI生成代码片段的数据集。

使用方法

AIGCodeSet数据集的使用方法主要包括训练和评估AI生成代码检测模型。研究人员可以将数据集分为训练集和测试集，利用训练集训练不同的检测模型，如基于Ada嵌入的随机森林、XGBoost和支持向量机模型，或基于TF/IDF向量的分类器。随后，使用测试集评估模型的性能，包括F1分数、准确率、精确率和召回率等指标。此外，数据集还可以用于分析不同LLM在生成代码时的表现差异，以及不同代码生成场景对检测模型性能的影响。通过这些方法，研究人员可以深入探讨AI生成代码的检测技术，并推动相关领域的研究进展。

背景与挑战

背景概述

随着生成式人工智能技术的快速发展，大型语言模型（LLM）在代码生成领域的应用日益广泛。尽管这些AI系统能够显著简化开发者的任务，但其在教育领域的滥用引发了伦理问题，尤其是在学生作业中的应用。为了应对这一问题，AIGCodeSet数据集应运而生，专注于检测AI生成的Python代码。该数据集由TOBB经济与技术大学的Basak Demirok和卡塔尔大学的Mucahid Kutlu等人于2024年创建，旨在通过提供标注数据，支持AI生成代码检测的研究。AIGCodeSet包含2,828个AI生成的代码片段和4,755个人工编写的代码片段，涵盖了317个编程任务，并使用了CodeLlama-34B、Codestral-22B和Gemini 1.5 Flash三种LLM模型。该数据集的发布为研究社区提供了重要的资源，推动了AI生成代码检测技术的发展。

当前挑战

AIGCodeSet面临的挑战主要体现在两个方面。首先，AI生成代码的检测本身具有复杂性，尤其是在代码风格和结构上与人类编写的代码高度相似的情况下，如何有效区分两者成为一大难题。其次，在数据集的构建过程中，研究人员需要确保AI生成的代码具有多样性和代表性，同时避免LLM输出中包含无关内容。为此，研究团队进行了手动后处理，剔除了不符合要求的代码片段，并保留了嵌入代码中的注释。此外，AIGCodeSet还涵盖了LLM在修复错误代码和纠正错误输出等场景中的应用，这进一步增加了数据集的复杂性和挑战性。这些挑战不仅反映了AI生成代码检测的技术难度，也为未来的研究提供了重要的方向。

常用场景

经典使用场景

AIGCodeSet数据集在AI生成代码检测任务中具有广泛的应用，尤其是在Python编程语言的背景下。该数据集通过结合人类编写的代码和AI生成的代码，提供了一个多样化的代码样本库，涵盖了从问题描述生成代码、修复运行时错误代码以及纠正错误输出代码等多种场景。这使得AIGCodeSet成为研究AI生成代码检测的理想工具，尤其是在教育领域，帮助识别学生作业中可能存在的AI生成代码，从而维护学术诚信。

解决学术问题

AIGCodeSet解决了AI生成代码检测中的关键学术问题，尤其是在代码来源识别和代码质量评估方面。通过提供大量标注的AI生成代码和人类编写代码样本，该数据集为研究人员提供了丰富的实验材料，帮助他们开发更准确的检测模型。此外，AIGCodeSet还揭示了不同大语言模型（如CodeLlama、Codestral和Gemini）在代码生成中的差异，为理解AI生成代码的特征提供了重要参考。这一数据集的出现填补了现有研究中的空白，推动了AI生成代码检测领域的发展。

实际应用

AIGCodeSet在实际应用中具有广泛的价值，尤其是在教育、软件开发和代码审查等领域。在教育领域，该数据集可以帮助教师识别学生作业中可能存在的AI生成代码，从而防止学术不端行为。在软件开发中，AIGCodeSet可以用于评估AI生成代码的质量和安全性，帮助开发者识别潜在的漏洞和错误。此外，该数据集还可以用于代码审查工具的开发，帮助团队更高效地检测和修复代码中的问题，提升代码的整体质量。

数据集最近研究