Identifying Machine-Paraphrased Plagiarism
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Identifying_Machine-Paraphrased_etc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练和评估用于检测机器释义文本的模型。训练集包含从 8,024 篇维基百科(英文)文章(4,012 篇原文,4,012 篇使用 SpinBot API 释义)中提取的 200,767 段(98,282 篇原文,102,485 篇释义)。测试集分为 3 个子集:一个来自 arXiv 研究论文的预印本,一个来自毕业论文,另一个来自 Wikipedia 文章。此外,还使用了不同的 Marchine-paraphrasing 方法。测试集:SpinBot:arXiv - Original - 20,966;纺 - 20,867 篇论文 - 原创 - 5,226;旋转 - 3,463 维基百科 - 原始 - 39,241; Spun - 40,729 SpinnerChief-4W:arXiv - 原始 - 20,966;纺 - 21,671 篇论文 - 原创 - 2,379;旋转 - 2,941 维基百科 - 原始 - 39,241; Spun - 39,618 SpinnerChief-2W:arXiv - 原始 - 20,966;纺 - 21,719 篇论文 - 原创 - 2,379;旋转 - 2,941 维基百科 - 原始 - 39,241;纺纱 - 39,697
This dataset is intended for training and evaluating models that detect machine-paraphrased text. The training set contains 200,767 paragraphs (98,282 original paragraphs, 102,485 machine-paraphrased paragraphs) extracted from 8,024 English Wikipedia articles, including 4,012 original articles and 4,012 articles paraphrased using the SpinBot API. The test set is split into three subsets sourced separately from preprints of arXiv research papers, graduate theses, and Wikipedia articles. Additionally, different machine-paraphrasing methods are utilized. Detailed statistics of the test set are as follows:
1. SpinBot: arXiv - Original: 20,966; Spun: 20,867; Theses - Original: 5,226; Spun: 3,463; Wikipedia - Original: 39,241; Spun: 40,729
2. SpinnerChief-4W: arXiv - Original: 20,966; Spun: 21,671; Theses - Original: 2,379; Spun: 2,941; Wikipedia - Original: 39,241; Spun: 39,618
3. SpinnerChief-2W: arXiv - Original: 20,966; Spun: 21,719; Theses - Original: 2,379; Spun: 2,941; Wikipedia - Original: 39,241; Spun: 39,697
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集旨在训练和评估检测机器释义文本的模型,训练集包含约20万段来自维基百科的原文及SpinBot API释义文本。测试集分为arXiv论文、毕业论文和维基百科三个子集,并采用多种机器释义方法生成对比数据。
以上内容由遇见数据集搜集并总结生成



