five

jpwahle/machine-paraphrase-dataset

收藏
Hugging Face2022-11-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jpwahle/machine-paraphrase-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
机器改写语料库(MPC)包含约20万条原始文本和使用两种在线改写工具(SpinnerChief和SpinBot)生成的改写文本。数据来源于Wikipedia、arXiv和学生论文。数据集未对齐,即原始文本和改写文本来自不同的段落。数据集支持的任务是改写识别,语言为英语。数据集的结构包括数据实例、数据字段和数据分割。数据集的创建目的是为了测试机器改写抄袭的检测。数据集的许可证为CC BY-NC 4.0。
提供机构:
jpwahle
原始信息汇总

数据集概述

数据集名称

  • 名称: Machine Paraphrase Dataset (MPC)
  • 别名: Machine Paraphrase Dataset (SpinnerChief/SpinBot)

数据集属性

  • 语言: 英语
  • 多语言性: 单语种
  • 许可证: CC-BY-4.0
  • 规模: 100K<n<1M
  • 源数据: 原始数据
  • 标签: spinbot, spinnerchief, plagiarism, paraphrase, academic integrity, arxiv, wikipedia, theses
  • 任务类别: text-classification, text-generation
  • 论文代码ID: identifying-machine-paraphrased-plagiarism

数据集结构

  • 数据实例: 包含文本、标签、数据集来源和方法
  • 数据字段:
    • text: 文本内容
    • label: 是否为改写(1)或原文(0)
    • dataset: 数据来源(Wikipedia, arXiv, 或 theses)
    • method: 使用的方法(SpinBot, SpinnerChief, 或 original)
  • 数据分割:
    • 训练集: Wikipedia x Spinbot
    • 测试集: [Wikipedia, arXiv, theses] x [SpinBot, SpinnerChief]

数据集创建

  • 来源数据:
    • 英文维基百科精选文章段落
    • arXMLiv全文PDF段落
    • 捷克学生论文(学士、硕士、博士)全文PDF段落
  • 许可证: CC BY-NC 4.0

引用信息

bib @inproceedings{10.1007/978-3-030-96957-8_34, title = {Identifying Machine-Paraphrased Plagiarism}, author = {Wahle, Jan Philip and Ruas, Terry and Folt{y}nek, Tom{a}{v{s}} and Meuschke, Norman and Gipp, Bela}, year = 2022, booktitle = {Information for a Better World: Shaping the Global Future}, publisher = {Springer International Publishing}, address = {Cham}, pages = {393--413}, isbn = {978-3-030-96957-8}, editor = {Smits, Malte}, abstract = {Employing paraphrasing tools to conceal plagiarized text is a severe threat to academic integrity. To enable the detection of machine-paraphrased text, we evaluate the effectiveness of five pre-trained word embedding models combined with machine learning classifiers and state-of-the-art neural language models. We analyze preprints of research papers, graduation theses, and Wikipedia articles, which we paraphrased using different configurations of the tools SpinBot and SpinnerChief. The best performing technique, Longformer, achieved an average F1 score of 80.99{%} (F1 = 99.68{%} for SpinBot and F1 = 71.64{%} for SpinnerChief cases), while human evaluators achieved F1 = 78.4{%} for SpinBot and F1 = 65.6{%} for SpinnerChief cases. We show that the automated classification alleviates shortcomings of widely-used text-matching systems, such as Turnitin and PlagScan.} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作