AIGCodeSet

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/basakdemirok/AIGCodeSet

下载链接

链接失效反馈

官方服务：

资源简介：

LLM与人类代码分类数据集：这是一个用于研究区分大型语言模型生成的代码与人类编写的代码的基准数据集，包含由CodeStral、Gemini和CodeLLaMA等模型生成的代码样本以及CodeNet中的人类编写代码。

创建时间：

2025-05-12

原始信息汇总

LLM vs Human Code Dataset 概述

数据集描述

该数据集包含由多种大型语言模型（LLMs）生成的代码样本，包括CodeStral（Mistral AI）、Gemini（Google DeepMind）和CodeLLaMA（Meta），以及来自CodeNet的人类编写代码。数据集旨在支持区分LLM生成代码与人类编写代码的研究。

数据集结构

1. LLM生成数据集 (`created_dataset_with_llms.csv`)

problem_id: CodeNet中的唯一问题ID。
submission_id: CodeNet中的提交ID。"submission_id == unrelated"表示纯LLM生成的代码。
LLM: 使用的模型："CODESTRAL"、"GEMINI"或"LLAMA"。
status_in_folder: 代码状态："wrong"、"runtime"、"generate"。
code: 由相应LLM生成的代码。
label: 始终为1（LLM生成的代码）。

2. 人类编写数据集 (`human_selected_dataset.csv`)

problem_id: CodeNet中的唯一问题ID。
submission_id: CodeNet中的提交ID。
(12 CodeNet columns): 直接由CodeNet提供的元数据列。
LLM: 始终为"Human"。
status_in_folder: 提交状态："wrong"、"runtime"、"accepted"。
code: 人类编写的代码。
label: 始终为0（人类编写的代码）。

3. 最终数据集 (`all_data_with_ada_embeddings_will_be_splitted_into_train_test_set.csv`)

合并后的数据集包含以下额外列：

ada_embedding: 代码的Ada嵌入向量。
lines: 总行数。
code_lines: 非空代码行数。
comments: 注释行数。
functions: 代码中的函数数量。
blank_lines: 空行数。

生成方法

LLM输出按照论文描述生成：arxiv.org/abs/2412.16594。
人类代码选自CodeNet并标注元数据。
代码特征通过自定义脚本计算行数、注释、函数等。

许可和使用

数据集许可:
- 数据集在CDLA Permissive v2.0许可下共享。附带源代码遵循Apache 2.0许可。
- LLM生成的代码样本不受各自模型提供者的所有权声明约束。
模型输出:
- 生成的代码样本在知识产权方面被视为公共领域。
- 不提供正确性或适用性保证。

引用

使用该数据集时请引用：

@article{demirok2024aigcodeset, title={AIGCodeSet: A New Annotated Dataset for AI Generated Code Detection}, author={Demirok, Basak and Kutlu, Mucahid}, journal={arXiv preprint arXiv:2412.16594}, year={2024} }

联系方式

如有问题或合作意向：

Basak Gokce
Email: basakgokce15@gmail.com

搜集汇总

数据集介绍

构建方式

在人工智能与代码生成技术迅猛发展的背景下，AIGCodeSet数据集通过系统整合多源数据构建而成。该数据集汇集了来自CodeStral、Gemini和CodeLLaMA等大型语言模型生成的代码样本，以及CodeNet平台的人类编写代码。构建过程中采用严格的标注流程，为LLM生成代码标注模型来源和生成状态，同时保留CodeNet原始元数据。技术特征方面，通过定制脚本提取代码行数、函数数量等结构化特征，并辅以Ada嵌入向量增强表示维度，形成兼具原始代码和量化特征的复合数据集结构。

使用方法

该数据集适用于代码来源分类模型的训练与评估，研究者可通过标准CSV格式直接加载处理。典型使用流程包括：利用problem_id字段实现样本溯源，基于label字段构建二分类任务，或借助status_in_folder字段进行错误类型分析。特征工程方面，既可直接使用预计算的ada_embedding等特征，也可结合原始code字段提取新特征。为保障研究合规性，使用者需遵循CDLA Permissive 2.0许可协议，并在学术成果中引用指定文献。数据文件按生成源和特征类型模块化组织，支持灵活的子集选取策略。

背景与挑战

背景概述

随着大型语言模型（LLM）在代码生成领域的广泛应用，区分AI生成代码与人类编写代码的需求日益凸显。AIGCodeSet数据集由Basak Demirok和Mucahid Kutlu于2024年创建，旨在为相关研究提供基准数据。该数据集整合了来自CodeStral、Gemini和CodeLLaMA等主流LLM生成的代码样本，以及CodeNet中的人类编写代码，为代码来源分类研究奠定了重要基础。其核心研究问题聚焦于开发有效的分类算法，以识别代码的生成来源，这对于代码版权保护、学术诚信维护以及软件工程质量管理具有深远意义。

当前挑战

AIGCodeSet数据集面临的挑战主要体现在两个方面：在领域问题层面，由于LLM生成的代码与人类代码在结构和风格上日益接近，传统的基于语法或简单统计特征的分类方法难以取得理想效果，这要求研究者开发更复杂的语义理解和模式识别技术；在构建过程层面，数据集需要平衡不同LLM的生成样本与人类代码的数量和质量，确保数据多样性，同时处理CodeNet中人类代码的复杂元数据，并设计有效的特征提取方法如Ada嵌入向量生成，这些都对数据集的构建提出了较高要求。

常用场景

经典使用场景

在人工智能与编程领域的交叉研究中，AIGCodeSet数据集为区分大型语言模型生成代码与人类编写代码提供了基准测试平台。该数据集通过整合来自CodeStral、Gemini和CodeLLaMA等主流模型的生成代码，以及CodeNet中的人类编程样本，构建了标准化的对比实验环境。研究者可基于代码行数、注释比例、函数结构等特征维度，开发高效的分类算法，推动代码来源识别技术的发展。

解决学术问题

该数据集有效解决了人工智能生成内容检测领域的核心挑战，为代码溯源研究提供了量化分析基础。通过标注清晰的样本标签和丰富的元数据特征，支持研究者探索模型生成代码的统计规律与风格特征，弥补了传统代码分析中缺乏对比基准的缺陷。其嵌入向量与语法特征的结合，为理解神经网络代码生成机制提供了新的研究视角。

实际应用

在软件工程实践领域，该数据集可应用于代码审核自动化系统的开发，帮助识别开源项目中可能存在的AI生成代码片段。教育机构可利用其构建编程作业查重工具，检测学生提交代码的原创性。企业研发部门则能通过分析模型生成代码的特征规律，优化内部代码质量评估体系。

数据集最近研究