Identifying Machine-Paraphrased Plagiarism

Name: Identifying Machine-Paraphrased Plagiarism
Creator: OpenDataLab
Published: 2026-05-24 04:30:06
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Identifying_Machine-Paraphrased_etc

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练和评估用于检测机器释义文本的模型。训练集包含从 8,024 篇维基百科（英文）文章（4,012 篇原文，4,012 篇使用 SpinBot API 释义）中提取的 200,767 段（98,282 篇原文，102,485 篇释义）。测试集分为 3 个子集：一个来自 arXiv 研究论文的预印本，一个来自毕业论文，另一个来自 Wikipedia 文章。此外，还使用了不同的 Marchine-paraphrasing 方法。测试集：SpinBot：arXiv - Original - 20,966；纺 - 20,867 篇论文 - 原创 - 5,226；旋转 - 3,463 维基百科 - 原始 - 39,241； Spun - 40,729 SpinnerChief-4W：arXiv - 原始 - 20,966；纺 - 21,671 篇论文 - 原创 - 2,379；旋转 - 2,941 维基百科 - 原始 - 39,241； Spun - 39,618 SpinnerChief-2W：arXiv - 原始 - 20,966；纺 - 21,719 篇论文 - 原创 - 2,379；旋转 - 2,941 维基百科 - 原始 - 39,241；纺纱 - 39,697

This dataset is intended for training and evaluating models that detect machine-paraphrased text. The training set contains 200,767 paragraphs (98,282 original paragraphs, 102,485 machine-paraphrased paragraphs) extracted from 8,024 English Wikipedia articles, including 4,012 original articles and 4,012 articles paraphrased using the SpinBot API. The test set is split into three subsets sourced separately from preprints of arXiv research papers, graduate theses, and Wikipedia articles. Additionally, different machine-paraphrasing methods are utilized. Detailed statistics of the test set are as follows: 1. SpinBot: arXiv - Original: 20,966; Spun: 20,867; Theses - Original: 5,226; Spun: 3,463; Wikipedia - Original: 39,241; Spun: 40,729 2. SpinnerChief-4W: arXiv - Original: 20,966; Spun: 21,671; Theses - Original: 2,379; Spun: 2,941; Wikipedia - Original: 39,241; Spun: 39,618 3. SpinnerChief-2W: arXiv - Original: 20,966; Spun: 21,719; Theses - Original: 2,379; Spun: 2,941; Wikipedia - Original: 39,241; Spun: 39,697

提供机构：

OpenDataLab

创建时间：

2022-05-23

搜集汇总

数据集介绍