神经机器重述数据集

Name: 神经机器重述数据集
Creator: 伍珀塔尔大学
Published: 2022-11-10 18:54:09
License: 暂无描述

arXiv2022-11-10 更新2024-06-21 收录

下载链接：

https://doi.org/10.5281/zenodo.4621403

下载链接

链接失效反馈

官方服务：

资源简介：

神经机器重述数据集是由伍珀塔尔大学创建的大型数据集，包含150万条来自arXiv、学位论文和维基百科的段落及其通过BERT、RoBERTa和Longformer模型重述的版本。数据集的创建过程涉及使用Transformer-based语言模型进行文本重述，确保重述文本与原始文本在语义上保持一致。该数据集主要用于研究和开发新的抄袭检测方法，特别是在识别机器生成的重述文本方面。

The Neural Machine Paraphrasing Dataset is a large-scale dataset created by the University of Wuppertal. It contains 1.5 million pairs of paragraphs sourced from arXiv, dissertations, and Wikipedia, along with their paraphrased versions generated by BERT, RoBERTa, and Longformer models. The dataset's construction process uses Transformer-based language models to conduct text paraphrasing, ensuring that the paraphrased texts are semantically consistent with their original versions. This dataset is primarily used for researching and developing new plagiarism detection methods, particularly for identifying machine-generated paraphrased texts.

提供机构：

伍珀塔尔大学

创建时间：

2021-03-23

搜集汇总

数据集介绍

构建方式

在学术诚信面临神经网络模型生成高质量重述文本挑战的背景下，神经机器重述数据集的构建采用了系统化的方法。该数据集源自先前研究中收集的arXiv科学论文、毕业论文及维基百科文章段落，共计超过16万原始段落。利用基于Transformer的BERT、RoBERTa和Longformer模型，通过掩码语言模型目标对文本进行重述，掩码概率设定为15%，以平衡语义保持与分类难度。在重述过程中，排除了命名实体和标点符号，确保生成文本在语义上与原始内容高度一致，同时避免引入错误信息。最终形成了包含原始段落及其对应神经重述版本的大规模对齐数据集，总量达150万段落，为检测机器生成的重述文本提供了重要资源。

使用方法

在自然语言处理与抄袭检测的研究中，该数据集主要用于训练和评估神经重述文本的识别模型。研究人员可以将数据集划分为训练集、验证集和测试集，利用其中的原始段落与重述段落对，构建二分类任务以区分文本来源。数据集支持基于Transformer的分类模型（如BERT、RoBERTa）的微调，也适用于传统机器学习方法（如fastText结合SVM）的性能基准测试。通过在不同文本来源（如arXiv、维基百科）上的交叉评估，可以检验模型的泛化能力。此外，数据集还可用于分析神经重述文本的语义特性，推动更鲁棒的抄袭检测算法发展。

背景与挑战

背景概述

随着Transformer架构在自然语言处理领域的广泛应用，神经语言模型如BERT、RoBERTa等展现出强大的文本生成与改写能力，这一进展对学术诚信构成了新的挑战。2021年，由德国伍珀塔尔大学的研究团队Jan Philip Wahle等人创建的神经机器重述数据集，旨在应对机器辅助抄袭检测中的核心问题。该数据集汇集了来自arXiv科学论文、学位论文及维基百科的段落，并利用BERT、RoBERTa和Longformer模型生成对应的语义保持性重述文本，总计包含150万段落对。其核心研究目标是为检测神经模型生成的改写文本提供大规模基准数据，推动抄袭检测技术适应日益智能化的文本伪装手段，对数字图书馆与学术诚信维护领域产生了深远影响。

当前挑战

该数据集致力于解决神经模型生成文本的抄袭检测难题，其核心挑战在于如何准确区分由先进语言模型生成的、语义高度一致但措辞各异的改写文本。这要求检测模型不仅理解表层词汇差异，还需深入捕捉语义的微妙变化，而现有基于统计或传统机器学习的方法在此任务上表现有限。在数据集构建过程中，研究团队面临多重挑战：首先，需确保改写文本在替换约15%词汇的同时维持原始语义的完整性，这要求精细控制掩码语言模型的概率参数；其次，数据来源的多样性带来了文本质量的异质性，例如非母语作者撰写的学位论文中包含的语法错误可能干扰分类模型的泛化能力；此外，为避免生成虚假信息，命名实体与标点符号等元素需在改写过程中被排除，这增加了数据预处理与质量控制的复杂性。

常用场景

经典使用场景

在学术诚信与自然语言处理领域，神经机器重述数据集为检测由Transformer模型生成的高级文本重述提供了关键基准。该数据集通过BERT、RoBERTa和Longformer等模型对arXiv论文、学位论文及维基百科段落进行语义保持的重述，构建了大规模对齐的原文与机器重述文本对。研究者利用这一数据集训练和评估分类模型，以区分原始文本与机器生成的重述版本，从而应对日益复杂的学术抄袭隐蔽化趋势。

解决学术问题

该数据集有效解决了神经网络生成文本的抄袭检测难题，填补了传统数据集在机器重述识别方面的空白。传统资源如MRPC或PAN数据集主要涵盖人工重述或基于启发式方法的文本混淆，难以应对基于Transformer的语义级重述。本数据集通过提供高质量、语义一致的机器重述样本，使研究者能够开发更先进的检测算法，提升对神经网络生成抄袭的识别能力，维护学术出版的原创性与完整性。

实际应用

在实际应用中，该数据集被广泛集成于学术出版系统和教育评估平台，用于增强抄袭检测系统的鲁棒性。出版机构利用基于该数据集训练的模型，自动筛查投稿中可能存在的机器重述抄袭行为，减少人工审核负担。教育机构则将其应用于学生作业和学位论文的原创性检查，有效识别借助高级语言模型伪装的抄袭内容，从而保障学术评价的公平性与严谨性。

数据集最近研究