Automatically Generated Plagiarism Dataset
收藏arXiv2025-10-08 更新2025-10-10 收录
下载链接:
https://ar5iv.labs.arxiv.org/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由三个大型语言模型生成,用于检测科学文章中的自动生成文本抄袭,并与其各自的来源进行对齐。数据集包含78,038对文档,分为训练、验证和测试集。数据集的创建过程涉及从arXiv中抽取文档,使用SPECTER模型创建文档嵌入,并基于语义相似度选择最相似的文档。数据集被分为不同类别,以支持对系统性能的详细分析。
This dataset, generated by three large language models, is designed for detecting automatically generated text plagiarism in scientific articles and aligning plagiarized texts with their respective source documents. It contains 78,038 document pairs, which are split into training, validation, and test sets. The dataset creation process involves extracting documents from arXiv, generating document embeddings using the SPECTER model, and selecting the most semantically similar documents based on semantic similarity. The dataset is divided into multiple categories to support detailed analyses of system performance.
提供机构:
Georg-August-Universität Göttingen, Germany; National Institute of Informatics, Tokyo, Japan; Friedrich-Schiller-Universität Jena, Germany; University of Kassel, Germany; hessian.ai, Darmstadt, Germany; ScaDS.AI, Leipzig, Germany
创建时间:
2025-10-08
搜集汇总
数据集介绍

构建方式
在学术剽窃检测研究领域,数据集的构建方法直接影响模型性能评估的有效性。该数据集以arXiv 2025版学术论文为源语料,采用分层抽样策略选取10万篇涵盖各学科领域的文档作为候选源文本。通过SPECTER模型计算文档嵌入向量,依据余弦相似度匹配语义相近的文档对,形成原始文档与疑似抄袭文档的配对组合。针对每个文档对,随机选取目标文档中特定比例的段落,采用加权算法(50%语义相似度、40%词频相似度、10%章节标题相似度)确定源文档对应段落,并运用Llama、DeepSeek-R1和Mistral三大语言模型进行智能化改写,最终生成包含7.8万对文档的大规模数据集。
特点
该数据集在生成式剽窃检测领域展现出显著特性。其核心价值在于构建了多维度分类体系:按抄袭严重程度划分为低(20-40%段落替换)、中(40-60%)、高(70-100%)三个等级;根据改写提示词复杂度分为简单、默认和复杂三种类型;特别设置了5%未修改原始文档和20%含独立改写段落的对照样本。数据分布经过精心设计,涵盖不同语言模型生成的文本变体,并保持训练集、验证集与测试集的合理划分。这种结构化设计使数据集能有效评估检测模型在多样化抄袭场景下的鲁棒性,尤其擅长检验算法对语义改写式抄袭的识别能力。
使用方法
该数据集适用于生成式文本抄袭检测模型的训练与评估。研究人员可获得包含完整文本对齐标注的训练集和验证集,其中明确标注了源文档与抄袭文档间段落的对应关系。评估阶段采用PAN 2015任务标准脚本,通过计算字符级重叠区域的plagdet指标(综合F1值与粒度因子)、召回率与精确度等多维指标进行性能度量。使用时需注意数据集的段落级检测特性,建议采用语义嵌入向量比对为基础的方法框架,同时结合段落边界信息优化检测粒度。为确保评估公正性,测试集保持封闭状态,所有系统提交需通过TIRA平台进行统一评测。
背景与挑战
背景概述
随着生成式人工智能技术的突破性进展,学术抄袭检测领域面临全新挑战。PAN 2025自动生成抄袭数据集由德国哥廷根大学、日本国立情报学研究所等机构联合构建,旨在应对大语言模型作为自动化抄袭工具所引发的学术诚信危机。该数据集基于arXiv科学文献库,通过Llama、DeepSeek-R1和Mistral三大模型生成语义改写式抄袭样本,标志着PAN系列自2015年后首次重启经典抄袭检测任务,为研究社区提供了评估生成式抄袭检测算法鲁棒性的基准平台。
当前挑战
该数据集需解决生成式语义抄袭检测的核心难题:在保持段落语义连贯性的同时准确识别跨文档的隐性内容窃取。构建过程中面临多重技术挑战,包括处理不同规模语言模型生成质量差异、设计兼顾语义保持与文本变异度的提示词策略,以及平衡数据集内真实抄袭与独立改写样本的比例分布。现有检测方法普遍依赖嵌入向量余弦相似度计算,在跨数据集泛化性方面表现脆弱,且难以区分技术文献中公式化表达与创造性改写的边界。
常用场景
经典使用场景
在学术诚信维护领域,Automatically Generated Plagiarism Dataset 被广泛应用于评估文本对齐算法的效能。该数据集通过大语言模型对科学文献段落进行自动化改写,模拟现实中的语义抄袭行为,为检测系统提供标准化测试环境。其典型应用场景包括 PAN 国际评测任务的参赛系统验证,以及语义相似度模型的基准测试,有效推动抄袭检测技术从传统字符串匹配向深度学习范式的转型。
解决学术问题
该数据集主要解决生成式人工智能引发的语义抄袭检测难题。通过构建大规模段落级改写样本,填补了传统抄袭数据集中缺乏自动生成内容的空白。其多维度标注体系(如抄袭严重度、提示词复杂度)支持细粒度算法评估,助力研究者突破语义嵌入向量相似度计算的局限性,为构建具有跨领域泛化能力的检测模型提供关键数据支撑。
衍生相关工作
基于该数据集衍生的经典研究包括团队chi-zi-zhi-xin-dui提出的分层检测框架,结合SBERT与TF-IDF的多特征融合方法。团队foshan-university开发的FAISS索引检索系统,以及团队jrluo创新的两阶段过滤架构,通过BERT分类器提升检测精度。这些工作共同推动了语义抄袭检测从粗粒度匹配向细粒度推理的技术演进。
以上内容由遇见数据集搜集并总结生成



