Identifying Machine-Paraphrased Plagiarism
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Identifying_Machine-Paraphrased_etc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练和评估用于检测机器释义文本的模型。训练集包含从 8,024 篇维基百科(英文)文章(4,012 篇原文,4,012 篇使用 SpinBot API 释义)中提取的 200,767 段(98,282 篇原文,102,485 篇释义)。测试集分为 3 个子集:一个来自 arXiv 研究论文的预印本,一个来自毕业论文,另一个来自 Wikipedia 文章。此外,还使用了不同的 Marchine-paraphrasing 方法。测试集:SpinBot:arXiv - Original - 20,966;纺 - 20,867 篇论文 - 原创 - 5,226;旋转 - 3,463 维基百科 - 原始 - 39,241; Spun - 40,729 SpinnerChief-4W:arXiv - 原始 - 20,966;纺 - 21,671 篇论文 - 原创 - 2,379;旋转 - 2,941 维基百科 - 原始 - 39,241; Spun - 39,618 SpinnerChief-2W:arXiv - 原始 - 20,966;纺 - 21,719 篇论文 - 原创 - 2,379;旋转 - 2,941 维基百科 - 原始 - 39,241;纺纱 - 39,697
提供机构:
OpenDataLab
创建时间:
2022-05-23



