H-AIRosettaMP
收藏arXiv2024-12-19 更新2024-12-21 收录
下载链接:
https://huggingface.co/spaces/isThisYouLLM/Human-Ai
下载链接
链接失效反馈官方服务:
资源简介:
H-AIRosettaMP数据集是由博洛尼亚大学和巴黎综合理工学院的研究团队创建的,用于AI代码风格学任务。该数据集包含121,247个代码片段,涵盖10种流行的编程语言,每个片段被标记为人类编写或AI生成。数据集的创建过程基于Rosetta Code项目,通过代码翻译生成AI编写的代码片段,确保了数据集的多语言性和可重复性。该数据集主要用于检测AI生成的代码,旨在解决代码生成中的安全、知识产权和伦理问题。
The H-AIRosettaMP dataset was created by research teams from the University of Bologna and École Polytechnique for AI code stylometry tasks. This dataset contains 121,247 code snippets covering 10 popular programming languages, with each snippet labeled as either human-written or AI-generated. The dataset was developed based on the Rosetta Code project, where AI-written code snippets were generated via code translation, ensuring the multilingualism and reproducibility of the dataset. This dataset is primarily used for detecting AI-generated code, aiming to address the security, intellectual property, and ethical issues in code generation.
提供机构:
博洛尼亚大学
创建时间:
2024-12-19
搜集汇总
数据集介绍

构建方式
H-AIRosettaMP数据集通过结合Rosetta Code项目中的多语言代码片段与StarCoder2生成的AI代码片段构建而成。首先,从Rosetta Code中筛选出10种最流行的编程语言(如C++、Java、Python等)的代码片段,确保这些语言在StarCoder2的训练数据集中也存在。随后,通过跨语言代码翻译技术,使用StarCoder2将每种语言的代码片段翻译成其他9种语言,生成AI生成的代码片段。最终,数据集包含了121,247个代码片段,每个片段都被标记为人类编写或AI生成,确保了数据集的多语言性和平衡性。
特点
H-AIRosettaMP数据集的主要特点在于其多语言性和平衡性。数据集涵盖了10种流行的编程语言,每种语言的代码片段均包含人类编写和AI生成的样本,确保了在不同语言环境下的检测任务的公平性。此外,数据集的构建过程完全可复现,使用开源的StarCoder2模型进行代码生成,避免了使用闭源模型带来的不可复现性问题。数据集的多样性和可复现性使其成为AI代码风格学研究的重要资源。
使用方法
H-AIRosettaMP数据集可用于训练和评估AI代码风格学检测模型。研究者可以使用该数据集训练基于Transformer的编码器分类器,以区分人类编写和AI生成的代码。数据集的多语言特性使得模型能够在多种编程语言中进行检测,适用于跨语言的代码风格学任务。此外,数据集的开放性和可复现性为研究者提供了公平的实验环境,便于验证和比较不同模型的性能。
背景与挑战
背景概述
H-AIRosettaMP数据集由Andrea Gurioli、Maurizio Gabbrielli和Stefano Zacchiroli等人于2024年创建,旨在解决AI生成的代码与人类编写的代码之间的区分问题。该数据集包含121,247个代码片段,涵盖10种流行的编程语言,并标记为人类编写或AI生成。其核心研究问题是如何在多语言环境下,通过单一的机器学习模型实现高精度的AI代码风格学分析。该数据集的发布不仅推动了AI代码检测技术的发展,还为相关领域的研究提供了可复现的实验基础,尤其是在安全、知识产权和伦理等敏感场景中具有重要意义。
当前挑战
H-AIRosettaMP数据集面临的挑战主要集中在两个方面。首先,构建过程中需要解决多语言代码的翻译问题,确保AI生成的代码片段在不同语言间的风格一致性,这增加了数据集的复杂性。其次,AI生成的代码与人类编写的代码在风格上的细微差异使得检测任务更具挑战性,尤其是在跨语言环境下,模型的泛化能力受到考验。此外,数据集的构建还需确保其可复现性,避免使用闭源的AI模型,这进一步增加了实验设计的难度。
常用场景
经典使用场景
H-AIRosettaMP数据集最经典的使用场景在于其能够通过多语言代码风格学(code stylometry)技术,区分由人类编写的代码和由大型语言模型(LLM)生成的代码。该数据集包含了10种流行编程语言的121,247个代码片段,每个片段都被标记为人类编写或AI生成。通过训练基于Transformer的编码器分类器,研究人员可以在多语言环境下实现高精度的AI代码检测,平均准确率达到84.1%。
解决学术问题
H-AIRosettaMP数据集解决了在多语言环境下自动检测AI生成代码的学术难题。传统方法通常局限于单一编程语言,且依赖于闭源的AI模型,导致科学可重复性和可扩展性受限。该数据集通过提供多语言、开放且可重复的实验环境,推动了AI代码风格学的研究进展,为学术界提供了一个统一的基准,帮助研究人员更好地理解AI生成代码的特征及其与人类代码的区别。
衍生相关工作
H-AIRosettaMP数据集的发布催生了一系列相关研究工作,特别是在多语言AI代码检测领域。例如,基于该数据集的Transformer模型架构被广泛应用于其他代码风格学任务,推动了多语言代码生成与检测的研究进展。此外,该数据集还启发了对不同代码生成模型(如ChatGPT和StarCoder)的对比研究,进一步探索了AI生成代码的多样性和检测方法的鲁棒性。
以上内容由遇见数据集搜集并总结生成



