LLMCSA Benchmark Dataset
收藏arXiv2026-03-04 更新2026-03-06 收录
下载链接:
https://github.com/mtt500/DCAN
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由四川大学团队构建,是首个面向大语言模型代码溯源任务的大规模基准数据集,包含来自DeepSeek、Claude、Qwen和ChatGPT四种主流模型的91,804个代码样本,覆盖Python、Java、C和Go四种编程语言。数据通过受控生成流程采集,包含带注释与无注释两种编码设置,重点捕捉模型在代码风格、结构组织和词汇偏好等方面的生成指纹。该数据集旨在支持软件溯源、安全审计等场景下的模型级代码归属分析研究。
This dataset, constructed by a team from Sichuan University, represents the first large-scale benchmark dataset targeted at code provenance tasks for large language models (LLMs). It includes 91,804 code samples from four mainstream models, namely DeepSeek, Claude, Qwen, and ChatGPT, covering four programming languages: Python, Java, C, and Go. The data is collected through a controlled generation pipeline, with two coding configurations: annotated and unannotated, and it focuses on capturing the generative fingerprints of models in terms of code style, structural organization, and vocabulary preference. This dataset is intended to support research on model-level code attribution analysis in scenarios such as software provenance and security auditing.
提供机构:
四川大学·网络空间安全学院
创建时间:
2026-03-04
原始信息汇总
DCAN数据集概述
数据集状态
- 数据集即将发布。
数据集内容
- 代码与数据集即将推出。
备注
- 数据集详情页面(https://github.com/mtt500/DCAN)显示,相关资源尚未公开。
搜集汇总
数据集介绍

构建方式
在大型语言模型广泛参与代码生成的背景下,为系统评估模型级代码溯源能力,LLMCSA Benchmark Dataset的构建遵循了严谨的流程。该数据集以LeetCodeDataset中的2869个算法任务为基础,通过精心设计的提示词,统一要求四种主流大语言模型(DeepSeek、Claude、Qwen和ChatGPT)为每个任务生成四种编程语言(Python、Java、C、Go)的解决方案,并区分了包含注释与不包含注释两种生成模式。为确保数据质量,构建流程包含了空文件过滤、语言对齐、无关文本移除和注释标准化等自动化清洗步骤,并对不合格样本进行自适应重生成,最终形成了一个包含91,804个高质量代码样本的平衡数据集。
特点
该数据集的核心特点在于其系统性、多样性与平衡性。它首次为LLM代码溯源任务提供了大规模、多模型、多语言的基准评测资源。数据集严格覆盖了四种主流大模型和四种编程语言,并包含了“带注释”与“不带注释”两种生成场景,为探究模型在语法与自然语言两个维度的生成指纹差异提供了可能。此外,数据样本均匀分布于数据结构、数学逻辑、基础算法等多个算法领域以及不同难度等级,确保了评估的全面性,避免了因任务类型或复杂度单一而导致的评估偏差。
使用方法
该数据集主要用于训练和评估大语言模型生成代码的溯源模型,如论文中提出的DCAN框架。研究人员可将数据集按任务划分为训练集与测试集,利用编码器提取代码的潜在表示,并通过对比学习等方式分离出与任务无关的源模型特定风格信息,进而训练分类器实现多类别的模型溯源。数据集支持跨编程语言、跨生成设置的性能评估,可用于研究模型生成指纹的稳定性、数据效率以及零样本跨语言泛化能力,为软件溯源、安全问责等实际应用场景提供基准支持。
背景与挑战
背景概述
随着大型语言模型在代码生成领域的广泛应用,软件溯源、安全问责与知识产权合规面临全新挑战。由四川大学网络空间安全学院研究团队于2026年构建的LLMCSA基准数据集,旨在解决LLM生成代码的模型级溯源问题。该数据集包含来自DeepSeek、Claude、Qwen和ChatGPT四种主流模型的91,804个代码样本,覆盖Python、Java、C和Go四种编程语言,并设计了无注释与含注释两种生成场景。其核心研究目标是通过解耦源代码的语义信息与模型特定风格指纹,实现精准的生成模型溯源,为软件工程领域的可信计算与合规审计提供关键基础设施。
当前挑战
该数据集致力于解决模型级代码溯源这一新兴领域问题,其核心挑战在于不同模型针对相同编程任务生成的代码在功能语义上高度相似,而模型特有的风格指纹往往隐藏在表层结构之下。构建过程中的挑战主要体现在数据采集与标准化层面:需要设计跨模型的统一提示工程框架以控制生成条件,同时建立多阶段数据清洗流程来处理模型输出中的格式不一致、语言错位及冗余自然语言描述。此外,确保数据在编程语言、任务难度与算法领域的平衡分布,以及实现风格指纹与任务语义的有效解耦,均是构建高质量基准数据集必须克服的技术障碍。
常用场景
经典使用场景
在软件工程与代码安全领域,LLMCSA Benchmark Dataset 的经典使用场景聚焦于大语言模型生成代码的来源追溯。该数据集通过整合来自 DeepSeek、Claude、Qwen 和 ChatGPT 四种主流模型在 C、Go、Java 和 Python 四种编程语言中生成的代码样本,为研究者提供了系统评估模型级代码溯源能力的标准化基准。其典型应用包括在受控环境下训练和验证代码来源分类模型,以探究不同模型在代码风格、结构偏好和词汇选择上的细微差异,从而为软件溯源分析提供数据支撑。
解决学术问题
该数据集有效解决了大语言模型生成代码的模型级溯源这一新兴学术问题。传统研究多集中于区分机器生成代码与人工编写代码,而 LLMCSA Benchmark Dataset 则推动了对特定生成模型的精细识别。通过提供大规模、多语言、多模型的标注数据,它支持了代码生成指纹的挖掘与建模,促进了源无关信息与源特定信息的解耦研究,为软件取证、责任归属和知识产权合规性分析提供了关键的数据基础,推动了代码生成可解释性与安全问责机制的发展。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,其中最具代表性的是其配套提出的解耦代码溯源网络(DCAN)。DCAN 框架利用数据集中的多任务、多模型样本,通过对比学习分离源无关语义信息与源特定风格指纹,显著提升了模型级归因的准确性与鲁棒性。此外,数据集也催生了对大语言模型代码生成“个性”的量化分析,例如对代码冗余度、词汇密度、命名规范偏好和结构深度等风格指标的深入研究,为理解模型训练差异对生成代码的隐性影响提供了实证基础。
以上内容由遇见数据集搜集并总结生成



