AIGCodeSet
收藏arXiv2024-12-21 更新2024-12-25 收录
下载链接:
http://arxiv.org/abs/2412.16594v1
下载链接
链接失效反馈官方服务:
资源简介:
AIGCodeSet是一个用于检测AI生成代码的数据集,由TOBB大学经济与技术大学和卡塔尔大学共同创建。该数据集专注于Python编程语言,包含4755条人类编写的代码和2828条AI生成的代码,涵盖317个编程任务。数据集的创建过程包括从CodeNet数据集中获取问题描述和人类编写的代码,使用CodeLlama 34B、Codestral 22B和Gemini 1.5 Flash模型生成AI代码,并进行后处理以确保代码质量。AIGCodeSet主要用于研究AI生成代码的检测,旨在解决教育领域中AI生成代码的伦理和学术诚信问题。
AIGCodeSet is a dataset for detecting AI-generated code, jointly created by TOBB University of Economics and Technology and Qatar University. This dataset focuses on the Python programming language, containing 4755 human-written code snippets and 2828 AI-generated code snippets, covering 317 programming tasks. The dataset creation process involves acquiring problem descriptions and human-written code from the CodeNet dataset, generating AI code using models including CodeLlama 34B, Codestral 22B, and Gemini 1.5 Flash, followed by post-processing to ensure code quality. AIGCodeSet is primarily used for research on AI-generated code detection, aiming to address ethical and academic integrity issues related to AI-generated code in the educational context.
提供机构:
TOBB大学经济与技术大学
创建时间:
2024-12-21
搜集汇总
数据集介绍

构建方式
AIGCodeSet数据集的构建过程基于对AI生成代码检测的需求,首先从CodeNet数据集中筛选出317个Python编程问题,并从中提取了4,755个人工编写的代码片段,涵盖了成功提交、运行时错误和错误输出三种状态。随后,利用CodeLlama 34B、Codestral 22B和Gemini 1.5 Flash三种大语言模型(LLM),分别在三种场景下生成AI代码:从问题描述生成代码、修复包含运行时错误的代码以及纠正输出错误的代码。生成过程中,通过手动后处理步骤去除与代码无关的LLM输出,最终形成了包含2,828个AI生成代码片段的数据集。
使用方法
AIGCodeSet数据集的使用方法主要包括训练和评估AI生成代码检测模型。研究人员可以将数据集分为训练集和测试集,利用训练集训练不同的检测模型,如基于Ada嵌入的随机森林、XGBoost和支持向量机模型,或基于TF/IDF向量的分类器。随后,使用测试集评估模型的性能,包括F1分数、准确率、精确率和召回率等指标。此外,数据集还可以用于分析不同LLM在生成代码时的表现差异,以及不同代码生成场景对检测模型性能的影响。通过这些方法,研究人员可以深入探讨AI生成代码的检测技术,并推动相关领域的研究进展。
背景与挑战
背景概述
随着生成式人工智能技术的快速发展,大型语言模型(LLM)在代码生成领域的应用日益广泛。尽管这些AI系统能够显著简化开发者的任务,但其在教育领域的滥用引发了伦理问题,尤其是在学生作业中的应用。为了应对这一问题,AIGCodeSet数据集应运而生,专注于检测AI生成的Python代码。该数据集由TOBB经济与技术大学的Basak Demirok和卡塔尔大学的Mucahid Kutlu等人于2024年创建,旨在通过提供标注数据,支持AI生成代码检测的研究。AIGCodeSet包含2,828个AI生成的代码片段和4,755个人工编写的代码片段,涵盖了317个编程任务,并使用了CodeLlama-34B、Codestral-22B和Gemini 1.5 Flash三种LLM模型。该数据集的发布为研究社区提供了重要的资源,推动了AI生成代码检测技术的发展。
当前挑战
AIGCodeSet面临的挑战主要体现在两个方面。首先,AI生成代码的检测本身具有复杂性,尤其是在代码风格和结构上与人类编写的代码高度相似的情况下,如何有效区分两者成为一大难题。其次,在数据集的构建过程中,研究人员需要确保AI生成的代码具有多样性和代表性,同时避免LLM输出中包含无关内容。为此,研究团队进行了手动后处理,剔除了不符合要求的代码片段,并保留了嵌入代码中的注释。此外,AIGCodeSet还涵盖了LLM在修复错误代码和纠正错误输出等场景中的应用,这进一步增加了数据集的复杂性和挑战性。这些挑战不仅反映了AI生成代码检测的技术难度,也为未来的研究提供了重要的方向。
常用场景
经典使用场景
AIGCodeSet数据集在AI生成代码检测任务中具有广泛的应用,尤其是在Python编程语言的背景下。该数据集通过结合人类编写的代码和AI生成的代码,提供了一个多样化的代码样本库,涵盖了从问题描述生成代码、修复运行时错误代码以及纠正错误输出代码等多种场景。这使得AIGCodeSet成为研究AI生成代码检测的理想工具,尤其是在教育领域,帮助识别学生作业中可能存在的AI生成代码,从而维护学术诚信。
解决学术问题
AIGCodeSet解决了AI生成代码检测中的关键学术问题,尤其是在代码来源识别和代码质量评估方面。通过提供大量标注的AI生成代码和人类编写代码样本,该数据集为研究人员提供了丰富的实验材料,帮助他们开发更准确的检测模型。此外,AIGCodeSet还揭示了不同大语言模型(如CodeLlama、Codestral和Gemini)在代码生成中的差异,为理解AI生成代码的特征提供了重要参考。这一数据集的出现填补了现有研究中的空白,推动了AI生成代码检测领域的发展。
实际应用
AIGCodeSet在实际应用中具有广泛的价值,尤其是在教育、软件开发和代码审查等领域。在教育领域,该数据集可以帮助教师识别学生作业中可能存在的AI生成代码,从而防止学术不端行为。在软件开发中,AIGCodeSet可以用于评估AI生成代码的质量和安全性,帮助开发者识别潜在的漏洞和错误。此外,该数据集还可以用于代码审查工具的开发,帮助团队更高效地检测和修复代码中的问题,提升代码的整体质量。
数据集最近研究
最新研究方向
随着生成式人工智能技术的迅猛发展,AI生成的代码在教育、软件开发等领域引发了广泛的伦理和安全问题。AIGCodeSet作为一个专门用于检测AI生成代码的数据集,涵盖了Python编程语言中的多种代码生成场景,包括从零生成代码、修复运行时错误以及纠正错误输出。该数据集不仅包含了大量人类编写的代码样本,还通过CodeLlama、Codestral和Gemini等大型语言模型生成了多样化的AI代码,为研究AI生成代码的检测提供了丰富的实验数据。当前的研究方向主要集中在如何通过机器学习模型(如贝叶斯分类器、随机森林等)有效区分AI生成代码与人类编写代码,并探索不同LLM在代码生成中的表现差异。这一领域的研究不仅有助于提升代码检测的准确性,还为AI生成代码的安全性和可靠性提供了重要的理论支持。
相关研究论文
- 1AIGCodeSet: A New Annotated Dataset for AI Generated Code DetectionTOBB大学经济与技术大学 · 2024年
以上内容由遇见数据集搜集并总结生成



