ai-code-detection

Hugging Face2025-07-31 更新2025-08-01 收录

下载链接：

https://huggingface.co/datasets/serafeimdossas/ai-code-detection

下载链接

链接失效反馈

官方服务：

资源简介：

Python AI Code Detection数据集是基于Rosetta Code数据集的一个子集，专门针对Python语言的解决方案。每个编程任务都包括一个由人类编写的解决方案和至少一个由AI生成的解决方案。这个结构使得可以进行AI与人类代码的比较研究、AI生成代码的质量分析、代码检测等。

创建时间：

2025-07-30

原始信息汇总

Python AI Code Detection 数据集概述

基本信息

语言: Python
许可证: MIT
标签: code, ai-generated, rosetta-code, python, openai

数据来源

源数据集: Rosetta Code
子集: 仅包含Python解决方案

数据集结构

样本类型:
- 每个任务包含:
  - 1个人工编写的解决方案
  - 1个或多个AI生成的解决方案

字段说明:

字段名	描述
`task_name`	编程任务的名称
`task_description`	来自Rosetta Code的任务自然语言描述
`language`	编程语言(当前仅Python)
`code`	解决方案代码(人工或AI生成)
`label`	标注类型(Human_written或Ai_generated)
`generator`	代码来源(Human, OpenAI o4-mini等)

构建过程

从原始数据集中筛选仅保留Python任务
将Rosetta Code样本标注为Human_written
为每个任务使用流行语言模型生成解决方案并标注为Ai_generated

应用方向

AI代码与人工代码对比研究
AI生成代码质量分析
代码检测等

示例条目

json { "task_name": "Ascending primes", "task_description": "Generate and show all primes with strictly ascending decimal digits...", "language": "Python", "code": "...", "label": "Ai_generated", "generator": "OpenAI o4-mini" }

搜集汇总

数据集介绍

构建方式

在人工智能与编程语言交叉研究领域，ai-code-detection数据集通过系统化方法构建而成。研究团队从Rosetta Code数据集中筛选出Python编程任务作为基础素材，采用双重标注策略：原始的人类编写代码被标记为Human_written，同时使用OpenAI等主流代码生成模型为每个任务创建对应的AI生成样本，形成对比研究框架。这种构建方式确保了数据来源的权威性和标注的准确性，为后续分析提供了可靠基准。

特点

该数据集最显著的特征在于其精心设计的对比结构，每个编程任务同时包含人类编写和AI生成的解决方案。数据字段设计科学完整，涵盖任务名称、自然语言描述、编程语言类型、解决方案代码以及详细的生成来源标注。特别值得注意的是，AI生成样本明确标注了具体使用的语言模型版本，这种细粒度的元数据为研究不同模型生成代码的特性差异提供了可能。数据集目前仅聚焦Python语言，这种单语言专注性有利于进行深度而非广度的分析研究。

使用方法

研究者可通过task_name字段快速定位特定编程任务，利用label字段区分的Human_written和Ai_generated标签开展对比分析。数据集支持多种研究场景：通过代码质量评估指标比较人类与AI的编码差异，开发AI代码检测分类器，或分析不同模型生成代码的风格特征。使用generator字段可进一步细分AI生成样本，探究特定语言模型的编码特性。建议采用自然语言处理与代码静态分析相结合的方法，充分挖掘该数据集的潜在价值。

背景与挑战

背景概述

Python AI Code Detection数据集是近年来随着人工智能生成代码技术兴起而构建的专业数据集，其核心研究聚焦于AI生成代码与人类编写代码的区分与质量评估。该数据集由研究人员基于著名的Rosetta Code开源编程任务库构建，精选Python语言解决方案作为研究样本。数据集创新性地采用对比式结构设计，每个编程任务同时包含人类编写的标准解法和AI生成的替代方案，为研究AI代码检测、代码质量分析等前沿课题提供了重要基准。这种双样本对照模式显著提升了数据集在代码生成领域的研究价值，使其成为评估大语言模型代码能力的重要工具。

当前挑战

该数据集面临的核心挑战主要体现在两个维度：在领域问题层面，如何准确区分AI生成代码与人类代码仍存在显著困难，当前检测方法在泛化性和鲁棒性上亟待提升；在构建过程层面，确保AI生成代码的多样性和代表性需要复杂的采样策略，而人类代码的质量标准化也面临挑战。数据集的单一语言限制（仅Python）可能影响研究结论的普适性，同时不同AI模型生成代码的质量差异也为标注一致性带来困难。如何平衡任务难度级别、保持代码样本的典型性，以及处理不断进化的AI代码生成能力，都是持续维护数据集需要解决的问题。

常用场景

经典使用场景

在人工智能与编程教育交叉领域，该数据集为研究者提供了独特的对比分析平台。通过精心标注的人类编写代码与AI生成代码样本，学者们能够深入探究两者在代码结构、算法实现和编程风格上的系统性差异。这种二元对立的样本结构特别适合开展代码溯源、质量评估和生成模式识别等研究。

解决学术问题

该数据集有效解决了AI生成代码识别这一新兴学术难题。通过提供标准化的比对样本，研究者可以开发更精准的代码来源检测算法，推动编程知识产权保护研究。同时为理解大语言模型的代码生成能力边界提供了实证基础，对提升AI辅助编程工具的可靠性具有重要价值。

衍生相关工作

基于该数据集已衍生出多项重要研究，包括《神经网络在代码溯源中的应用》等算法论文，以及《AI生成代码的语法特征分析》等理论研究成果。部分团队利用其构建了开源的代码检测工具链，推动了整个AI代码检测领域的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集