five

Identifying_Machine-Paraphrased_etc

收藏
魔搭社区2024-12-09 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Identifying_Machine-Paraphrased_etc
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: Identifying Machine-Paraphrased Plagiarism labelTypes: - Classification license: - CC BY 4.0 mediaTypes: - Text paperUrl: https://arxiv.org/pdf/2103.11909v4.pdf publishDate: "2021-01-14" publishUrl: https://doi.org/10.5281/zenodo.3608000 publisher: - University of Wuppertal - Mendel University in Brno tags: - Paraphrased taskTypes: - Text Classification --- # 数据集介绍 ## 简介 该数据集用于训练和评估用于检测机器释义文本的模型。训练集包含从 8,024 篇维基百科(英文)文章(4,012 篇原文,4,012 篇使用 SpinBot API 释义)中提取的 200,767 段(98,282 篇原文,102,485 篇释义)。测试集分为 3 个子集:一个来自 arXiv 研究论文的预印本,一个来自毕业论文,另一个来自 Wikipedia 文章。此外,还使用了不同的 Marchine-paraphrasing 方法。测试集:SpinBot:arXiv - Original - 20,966;纺 - 20,867 篇论文 - 原创 - 5,226;旋转 - 3,463 维基百科 - 原始 - 39,241; Spun - 40,729 SpinnerChief-4W:arXiv - 原始 - 20,966;纺 - 21,671 篇论文 - 原创 - 2,379;旋转 - 2,941 维基百科 - 原始 - 39,241; Spun - 39,618 SpinnerChief-2W:arXiv - 原始 - 20,966;纺 - 21,719 篇论文 - 原创 - 2,379;旋转 - 2,941 维基百科 - 原始 - 39,241;纺纱 - 39,697 ## 引文 ``` @inproceedings{wahle2022identifying, title={Identifying machine-paraphrased plagiarism}, author={Wahle, Jan Philip and Ruas, Terry and Folt{\`y}nek, Tom{\'a}{\v{s}} and Meuschke, Norman and Gipp, Bela}, booktitle={International Conference on Information}, pages={393--413}, year={2022}, organization={Springer} } ``` ## Download dataset :modelscope-code[]{type="git"}

displayName: 机器释义剽窃识别(Identifying Machine-Paraphrased Plagiarism) labelTypes: 分类任务 license: CC BY 4.0(知识共享署名4.0国际许可协议) mediaTypes: 文本 paperUrl: https://arxiv.org/pdf/2103.11909v4.pdf publishDate: "2021-01-14" publishUrl: https://doi.org/10.5281/zenodo.3608000 publisher: 伍珀塔尔大学(University of Wuppertal)、布尔诺孟德尔大学(Mendel University in Brno) tags: 释义文本(Paraphrased) taskTypes: 文本分类 --- # 数据集介绍 ## 简介 本数据集用于训练和评估机器释义文本检测模型。训练集源自8024篇英文维基百科文章(含4012篇原文与4012篇经SpinBot API生成的释义文本),共提取得到200767段文本,其中原文98282段,释义文本102485段。测试集分为3个子集,分别来自arXiv研究论文预印本、毕业论文与维基百科文章,且采用了多种机器释义(Machine-paraphrasing)方法。测试集详细构成如下: - SpinBot 数据集:arXiv 原文20966段、释义文本20867段;毕业论文原文5226段、释义文本3463段;维基百科原文39241段、释义文本40729段 - SpinnerChief-4W 数据集:arXiv 原文20966段、释义文本21671段;毕业论文原文2379段、释义文本2941段;维基百科原文39241段、释义文本39618段 - SpinnerChief-2W 数据集:arXiv 原文20966段、释义文本21719段;毕业论文原文2379段、释义文本2941段;维基百科原文39241段、释义文本39697段 ## 引文 @inproceedings{wahle2022identifying, title={Identifying machine-paraphrased plagiarism}, author={Wahle, Jan Philip and Ruas, Terry and Foltýnek, Tomáš and Meuschke, Norman and Gipp, Bela}, booktitle={International Conference on Information}, pages={393--413}, year={2022}, organization={Springer} } ## 数据集下载 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作