Source Code Plagiarism Dataset

github2024-05-06 更新2024-05-31 收录

下载链接：

https://github.com/oscarkarnalim/sourcecodeplagiarismdataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估源代码抄袭检测的有效性。它包含467个Java源代码文件，覆盖七个入门级编程评估任务。该数据集独特之处在于，其构建时考虑了抄袭意图和高级抄袭攻击。详细信息可参见《信息教育》发表的相关论文。

This dataset is designed to evaluate the effectiveness of source code plagiarism detection. It comprises 467 Java source code files, encompassing seven introductory-level programming assessment tasks. The uniqueness of this dataset lies in its construction, which takes into account both the intent of plagiarism and sophisticated plagiarism attacks. For further details, please refer to the relevant paper published in 'Information Education'.

创建时间：

2019-10-03

原始信息汇总

Source Code Plagiarism Dataset 概述

数据集内容

编程语言：Java
文件数量：467个源代码文件
覆盖任务：包含七个入门级编程评估任务
特殊考虑：数据集在构建时考虑了有意抄袭和高级抄袭攻击

数据集结构

任务结构：每个任务包含三个目录：
- Original：包含任务的原始代码
- non-plagiarized：包含N个子目录，每个子目录代表一个独立于原始代码创建的代码文件
- plagiarized：包含六个子目录，代表从Faidhi和Robinson（1987）提出的不同抄袭级别，每个级别下有N个更深的子目录，包含通过抄袭原始代码创建的代码文件

使用注意事项

若使用此数据集，请引用相关出版物而非此链接
用户需注意，在非抄袭提交中，第13和第15号提交在case-02, case-03, case-04, case-06, 和 case-07中相似，用户可根据需要选择排除其中一个提交

搜集汇总

数据集介绍

构建方式

该数据集旨在评估源代码抄袭检测的有效性，由467个Java源代码文件组成，涵盖七个入门编程评估任务。其独特之处在于，数据集的构建不仅考虑了抄袭意图，还模拟了高级抄袭攻击，确保了数据集的多样性和挑战性。通过精心设计的抄袭级别，数据集能够全面反映不同程度的抄袭行为，为研究者提供了丰富的实验材料。

使用方法

使用该数据集时，研究者可以针对每个任务的三个目录进行分析：'Original'目录包含原始代码，'non-plagiarized'目录包含独立创建的代码文件，而'plagiarized'目录则包含不同抄袭级别的代码文件。通过对比这些代码，研究者可以评估抄袭检测算法的性能。此外，数据集的使用应参考相关文献，并确保在研究中正确引用。

背景与挑战

背景概述

在计算机科学教育领域，源代码抄袭检测是一个备受关注的问题。Source Code Plagiarism Dataset由Manuel Freire等人创建，旨在评估源代码抄袭检测技术的有效性。该数据集包含了467个Java源代码文件，涵盖了七个基础编程任务，特别之处在于它不仅考虑了抄袭意图，还模拟了高级抄袭攻击。该数据集的构建基于Faidhi和Robinson（1987）的抄袭等级分类，为研究者提供了一个全面的测试平台，以验证和改进现有的抄袭检测算法。

当前挑战

该数据集在构建过程中面临了多重挑战。首先，如何确保代码文件的独立性，尤其是在非抄袭部分，是一个复杂的问题。尽管研究人员尽力确保学生独立完成代码，但仍存在可能的交叉抄袭情况。其次，模拟高级抄袭攻击需要精确设计，以确保这些攻击能够真实反映实际中的复杂抄袭行为。此外，数据集的多样性和规模也带来了管理和分析上的挑战，尤其是在处理大量代码文件时，如何高效地进行分类和标注是一个技术难题。

常用场景

经典使用场景

Source Code Plagiarism Dataset 主要用于评估源代码抄袭检测算法的有效性。该数据集包含了467个Java源代码文件，涵盖了七个基础编程任务。通过对比‘Original’目录中的原始代码与‘non-plagiarized’和‘plagiarized’目录中的代码，研究者可以分析不同抄袭程度的代码特征，从而优化和验证抄袭检测模型。

解决学术问题

该数据集解决了在编程教育领域中，如何有效检测源代码抄袭的学术问题。通过提供不同抄袭程度的代码样本，研究者能够深入探讨抄袭检测算法的鲁棒性和准确性，推动了编程教育中抄袭检测技术的进步，具有重要的学术价值和教育意义。

实际应用

在实际应用中，Source Code Plagiarism Dataset 可用于开发和测试编程教育平台中的抄袭检测系统。通过识别和标记抄袭代码，教育机构可以确保评估的公平性和学生的学习质量，从而提升编程教育的整体水平。此外，该数据集还可用于企业内部代码审查，帮助检测和防止内部代码的抄袭行为。

数据集最近研究