python_plagiarism_code_dataset

Hugging Face2025-04-29 更新2025-04-30 收录

下载链接：

https://huggingface.co/datasets/nop12/python_plagiarism_code_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Python代码抄袭检测数据集包含成对的Python代码样本，这些样本具有不同的相似度，旨在用于训练和评估抄袭检测系统。数据集利用大型语言模型生成合成代码变体，模拟学术环境中的真实抄袭场景。数据集提供了原始代码和6个不同变换级别的抄袭版本，可用于开发更先进的抄袭检测方法。

The Python code plagiarism detection dataset consists of paired Python code samples with varying levels of similarity, designed for training and evaluating plagiarism detection systems. This dataset leverages large language models to generate synthetic code variants, simulating realistic plagiarism scenarios in academic environments. The dataset provides original code along with plagiarized versions across six distinct transformation levels, enabling the development of more advanced plagiarism detection methodologies.

创建时间：

2025-04-17

原始信息汇总

Python Plagiarism Code Dataset 数据集概述

数据集简介

包含具有不同相似度的Python代码样本对
专为训练和评估抄袭检测系统设计
使用大型语言模型(LLMs)生成不同变换级别的合成代码变体
模拟学术环境中的真实抄袭场景

数据集目的

解决现有代码相似性检测工具的局限性
针对代码被显著重构但功能相同的复杂抄袭形式
为开发测试更先进的抄袭检测方法提供基准

数据结构

原始代码：各种编程问题的源代码实现
抄袭版本：6种不同变换级别的原始代码合成变体

变换级别

逐字复制(级别1)：仅更改注释或缩进
重命名标识符(级别2)：更改变量名、函数名等
更改注释(级别3)：修改或重写注释
重排语句(级别4)：改变语句或代码块顺序
更改控制结构(级别5)：修改循环、条件等控制结构
更改逻辑(级别6)：显著改变底层算法或逻辑

创建方法

源选择：来自Google的MBPP数据集
生成：使用DeepSeek Coder和GPT-4o-mini生成各级别抄袭版本
验证：
- 语法正确性
- 与原始代码的功能等价性
- 适当的变换级别
人工验证：手动审查生成样本确保质量

评估指标

BERTScore：测量语义相似性
ROUGE：捕获词汇重叠
余弦相似度：基于Jina Embeddings v2 Base Code的代码嵌入

应用场景

训练代码抄袭检测的机器学习模型
基准测试现有抄袭检测工具
研究当前检测方法的局限性
教育用途展示不同级别的代码抄袭
开发能检测复杂代码抄袭的更强大系统

搜集汇总

数据集介绍

构建方式

在学术诚信研究领域，Python代码抄袭检测数据集采用多阶段构建方法。研究团队从Google的MBPP数据集中精选基础Python编程问题作为原始代码，运用DeepSeek Coder和GPT-4o-mini等大型语言模型系统生成六个层级的人工模拟抄袭变体。每个层级严格遵循从简单标识符替换到复杂逻辑重构的渐进式转换规则，所有生成样本均经过语法正确性验证、功能等价性测试以及人工质量审查三重校验机制。

特点

该数据集最显著的特征在于其精细划分的六级代码转换体系，完整覆盖从表面形式修改到深层逻辑重构的抄袭光谱。每个代码对不仅包含原始实现与人工生成的抄袭变体，还附带基于BERTScore、ROUGE和代码嵌入余弦相似度的多维相似性评分。这种结构化设计使得数据集既能评估传统基于语法的检测方法，又能测试新兴语义分析技术的性能边界，为研究不同复杂度的抄袭行为提供了标准化实验环境。

使用方法

使用者可通过分层抽样策略选取特定转换层级的代码对，针对不同检测任务构建训练集与测试集。研究人员可借助预置的多维度相似度指标，系统评估检测模型在识别各类抄袭变体时的敏感性与特异性。教育工作者则能利用分层次案例，直观展示代码抄袭的演化谱系。需要注意的是，使用前应进行数据标准化处理，并建议结合传统语法分析与现代语义理解方法进行综合建模。

背景与挑战

背景概述

Python Plagiarism Code Dataset由研究团队基于大型语言模型（LLMs）构建，旨在解决学术环境中代码抄袭检测的挑战。该数据集以Google的MBPP数据集为基础，通过DeepSeek Coder和GPT-4o-mini生成不同变换级别的抄袭代码变体，模拟了从简单重命名到复杂逻辑重构的真实抄袭场景。其核心研究问题聚焦于提升现有抄袭检测工具对语义相似性的识别能力，弥补传统基于语法分析的局限性。该数据集为开发更先进的抄袭检测方法提供了基准，对编程教育、学术诚信维护及代码知识产权保护领域具有重要影响。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题层面，现有代码相似性检测工具难以识别经过深度重构但功能相同的抄袭代码，尤其在控制结构修改和逻辑变更等高阶变换场景下准确率显著下降；构建过程层面，确保生成代码的语法正确性、功能等效性及变换级别的准确性需要复杂的验证流程，人工审核成本高昂，且不同变换级别之间的界限界定存在主观性。此外，评估指标如BERTScore、ROUGE和余弦相似度在捕捉代码语义相似性时可能产生不一致的结果，为模型训练和基准测试带来挑战。

常用场景

经典使用场景

在计算机科学教育领域，代码抄袭检测一直是维护学术诚信的重要课题。Python_plagiarism_code_dataset通过精心设计的6级代码转换层次，为研究者提供了评估抄袭检测系统性能的标准基准。该数据集特别适用于训练基于深度学习的语义相似度模型，能够有效识别经过变量重命名、控制结构修改等高阶转换的抄袭代码，弥补了传统基于语法分析的检测工具的不足。

实际应用

在实际教学管理场景中，该数据集支持开发新一代智能抄袭检测系统，可部署于在线编程教育平台自动筛查作业抄袭。其分级的转换样本能帮助教师直观演示各类抄袭手法，用于学术诚信教育。在软件工程领域，相似技术可扩展应用于代码克隆检测、专利侵权分析等场景，保护知识产权。

衍生相关工作

基于该数据集已催生多项创新研究，包括结合图神经网络的代码表征模型CodeBERT、基于对比学习的抄袭检测框架CLCD等。这些工作通过利用数据集的多粒度标注信息，在ACM SIGSOFT等顶级会议发表了突破性成果。数据集还被整合进JPlag等开源工具的测试套件，持续推动着检测算法的迭代更新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集