five

CONPLAG

收藏
arXiv2023-03-20 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.7332490
下载链接
链接失效反馈
官方服务:
资源简介:
CONPLAG是由Sirius.Courses创建的第一个专门针对编程竞赛抄袭的源代码数据集,包含251对抄袭解决方案和660对非抄袭解决方案,均来自Java语言的竞赛题目。数据集通过精选CodeForces平台的21个问题,收集了4695个Java提交,经过多轮手动标记和工具过滤,形成了包含911对解决方案的数据集。CONPLAG旨在为评估和改进源代码抄袭检测工具提供基准,特别关注竞赛环境中的模板代码问题。

CONPLAG is the first source code dataset specifically targeting programming contest plagiarism, created by Sirius.Courses. It contains 251 plagiarized solution pairs and 660 non-plagiarized solution pairs, all sourced from Java-based programming contest problems. The dataset is constructed by selecting 21 problems from the CodeForces platform, collecting 4695 Java submissions, and forming a dataset of 911 solution pairs through multiple rounds of manual annotation and tool-based filtering. CONPLAG aims to provide a benchmark for evaluating and improving source code plagiarism detection tools, with a particular focus on the template code issue in programming contest environments.
提供机构:
Sirius.Courses
创建时间:
2023-03-20
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CONPLAG是首个专注于编程竞赛抄袭的Java源代码数据集,包含来自CodeForces平台的251对抄袭和660对非抄袭解决方案,总计911对数据。该数据集通过多轮手动标记和工具过滤构建,旨在为源代码抄袭检测工具提供基准,特别针对竞赛环境中的模板代码问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作