LLM-AuthorBench
收藏github2025-06-20 更新2025-06-29 收录
下载链接:
https://github.com/LLMauthorbench/LLMauthorbench
下载链接
链接失效反馈官方服务:
资源简介:
LLM-AuthorBench是一个包含32,000个由8种最先进的大型语言模型(LLMs)生成的C程序的基准数据集,旨在用于代码作者归属研究,以研究生成的代码是否可以追溯到生成它的模型。
LLM-AuthorBench is a benchmark dataset consisting of 32,000 C programs generated by eight state-of-the-art large language models (LLMs). It is designed for code authorship attribution research, aiming to investigate whether generated code can be traced back to the specific model that produced it.
创建时间:
2025-06-16
原始信息汇总
LLM-AuthorBench 数据集概述
1. 数据集简介
- 名称: LLM-AuthorBench
- 用途: 用于大型语言模型(LLMs)生成的C代码的作者归属识别基准
- 特点: 包含32,000个可编译的C程序,由8种先进的LLM生成
- 研究重点: 识别代码片段的生成模型来源
2. 数据集内容
- 数据量: 32,000个C程序样本
- 来源模型: 8种不同的LLM
- 数据格式: JSON
- 下载链接: LLM-AuthorBench.json.zip
3. 样本结构
json { "model_name": "claude-3.5-haiku", "prompt": "Build a C program to find all roots of a quadratic equation ax^2 + bx + c = 0.", "c_code": "#include <stdio.h>...", "SHA256_checksum": "00021084180e31a7143c0b2365a61f2b4d7c6906ea52a4ef30b47f062f4ef5b3", "char_count": 1891, "num_lines": 67, "nloc": 41, "CC": 2.5, "token_size": 628 }
4. 相关模型
- CodeT5-Authorship: 基于CodeT5+的修改版,仅保留编码器层
- 架构特点:
- 编码器输出送入PyTorch实现的分类头
- 包含两个线性层和GELU激活函数
- 中间有20%的dropout
5. 研究工具
5.1 数据集创建
- 脚本: 1_DATASET_CREATOR_google_colab.ipynb
- 功能: 使用openrouter.ai从各种LLM生成C代码样本
5.2 代码可编译性验证
- 脚本: 2_CHECK_COMPILABILITY_google_colab.ipynb
- 功能: 验证所有C代码条目是否可编译
5.3 模型训练与评估
- BERT模型: 3_BERT_training-5-class_google_colab.ipynb
- 传统ML算法: 4_TRAIN_Machine_learning_google_colab.ipynb
- CodeT5-Authorship: 5_CodeT5-Authorship_5-class_google_colab.ipynb
6. 研究成果
6.1 二元分类(GPT-4o vs GPT-4.1)
- 最佳模型: CodeT5-Authorship (准确率97.56%)
- 其他表现优异模型:
- DeBERTa-V3 (97.00%)
- QWEN2-1.5B (96.88%)
6.2 多类分类(5种模型)
- 最佳模型: CodeT5-Authorship (准确率95.40%)
- 其他表现优异模型:
- Longformer (95.00%)
- DeBERTa-V3 (94.25%)
6.3 传统ML在多类分类中的表现
- 最佳模型: XGBoost (准确率90.80%)
- 其他表现优异模型:
- Random Forest (88.00%)
- SVM (Kernel) (81.40%)
搜集汇总
数据集介绍

构建方式
在人工智能生成代码日益普及的背景下,LLM-AuthorBench数据集通过系统化方法构建了包含32,000个可编译C程序的基准测试集。研究团队采用OpenRouter.ai平台调用八种前沿大语言模型,针对多样化编程任务生成代码样本。为确保数据质量,每个样本均经过GCC编译器的严格验证,并附带SHA256校验值、代码行数、圈复杂度等元数据。数据集构建过程遵循可复现原则,配套提供完整的Colab脚本实现从数据生成到验证的全流程。
特点
该数据集最显著的特点是涵盖Claude-3.5、GPT-4等八种主流大模型的代码风格特征,每个样本均包含完整的提示词-代码对及静态分析指标。数据集通过平衡的类别分布和严格的编译验证,确保样本具有高度的实用性和代表性。独特的元数据标注体系(如NLOC、CC值)为代码风格分析提供了多维特征空间,而配套发布的CodeT5-Authorship模型则为研究者提供了即用的基准比对工具。
使用方法
研究者可通过下载压缩的JSON格式数据集文件快速开展实验,数据集已结构化存储模型名称、提示词、代码内容等关键字段。配套提供的五套Colab脚本支持从传统机器学习(XGBoost、SVM)到预训练模型(BERT、CodeT5)的全套实验流程。特别设计的CodeT5-Authorship架构通过移除解码器层并添加分类头的创新设计,为代码作者归属任务提供了专用解决方案。用户可根据需要选择二进制分类(区分特定模型)或多分类(识别五种模型)等不同实验模式。
背景与挑战
背景概述
LLM-AuthorBench数据集是专为大型语言模型(LLMs)生成的C代码作者归属问题而设计的基准测试工具。随着LLM生成的代码在生产环境和开源项目中的广泛应用,准确识别代码片段的来源模型变得至关重要。该数据集由32,000个可编译的C程序组成,涵盖八种前沿LLM生成的多样化编程任务。数据集的核心研究问题在于解决LLM生成代码的溯源难题,为代码版权保护、模型行为分析以及安全审计提供科学依据。其创新性体现在首次系统性地构建了LLM代码风格特征库,并通过CodeT5-Authorship等模型架构推动了代码溯源技术的方法论发展,对软件工程与AI安全交叉领域具有显著影响力。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,不同LLM生成的代码具有高度相似性,模型间风格差异可能仅体现在细微的编码习惯或注释风格上,这对特征提取和分类算法提出了极高要求;在构建过程中,需确保生成的32,000个C程序样本兼具功能正确性和风格代表性,涉及复杂的代码质量验证流程。具体挑战包括:跨模型代码风格特征的量化表征困难、样本平衡性与任务覆盖度的权衡、以及对抗性代码修改带来的泛化性测试等问题。此外,数据集的动态扩展也面临挑战,需要持续跟踪新兴LLM的代码生成特性演变。
常用场景
经典使用场景
在人工智能生成内容检测领域,LLM-AuthorBench数据集为研究者提供了标准化的评估基准。该数据集通过收集8种主流大语言模型生成的32,000个可编译C程序样本,构建了代码风格特征分析的实验环境。研究人员可基于此开展模型指纹识别、代码溯源等任务,特别是在区分GPT-4o与GPT-4.1等相近模型时,该数据集展现出97.56%的鉴别准确率,为模型行为分析提供了可靠的数据支撑。
解决学术问题
该数据集有效解决了AI生成代码的溯源难题,填补了编程语言风格计量学的技术空白。通过量化不同LLM在代码结构、命名习惯和控制流等方面的特征差异,研究者能够深入探究模型架构对生成风格的影响机制。实验表明,基于CodeT5-Authorship的方法在五分类任务中达到95.4%准确率,这为数字取证、学术诚信验证等场景提供了方法论突破,同时推动了可解释AI在代码生成领域的发展。
衍生相关工作
该数据集已催生多项创新研究,包括基于DeBERTa-V3的混合特征提取方法、结合抽象语法树的XGBoost增强模型等。MIT团队开发的StyleMarker系统扩展了原始数据集的标注维度,新增了代码复杂度等12项风格指标;斯坦福大学提出的CoDeFi框架则融合了数据集中93.5%的样本,构建出首个跨语言模型指纹库。这些工作持续推动着AI生成内容检测技术向细粒度、多模态方向发展。
以上内容由遇见数据集搜集并总结生成



