Identifying_Machine-Paraphrased_etc
收藏魔搭社区2024-12-09 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Identifying_Machine-Paraphrased_etc
下载链接
链接失效反馈官方服务:
资源简介:
displayName: Identifying Machine-Paraphrased Plagiarism
labelTypes:
- Classification
license:
- CC BY 4.0
mediaTypes:
- Text
paperUrl: https://arxiv.org/pdf/2103.11909v4.pdf
publishDate: "2021-01-14"
publishUrl: https://doi.org/10.5281/zenodo.3608000
publisher:
- University of Wuppertal
- Mendel University in Brno
tags:
- Paraphrased
taskTypes:
- Text Classification
---
# 数据集介绍
## 简介
该数据集用于训练和评估用于检测机器释义文本的模型。训练集包含从 8,024 篇维基百科(英文)文章(4,012 篇原文,4,012 篇使用 SpinBot API 释义)中提取的 200,767 段(98,282 篇原文,102,485 篇释义)。测试集分为 3 个子集:一个来自 arXiv 研究论文的预印本,一个来自毕业论文,另一个来自 Wikipedia 文章。此外,还使用了不同的 Marchine-paraphrasing 方法。测试集:SpinBot:arXiv - Original - 20,966;纺 - 20,867 篇论文 - 原创 - 5,226;旋转 - 3,463 维基百科 - 原始 - 39,241; Spun - 40,729 SpinnerChief-4W:arXiv - 原始 - 20,966;纺 - 21,671 篇论文 - 原创 - 2,379;旋转 - 2,941 维基百科 - 原始 - 39,241; Spun - 39,618 SpinnerChief-2W:arXiv - 原始 - 20,966;纺 - 21,719 篇论文 - 原创 - 2,379;旋转 - 2,941 维基百科 - 原始 - 39,241;纺纱 - 39,697
## 引文
```
@inproceedings{wahle2022identifying,
title={Identifying machine-paraphrased plagiarism},
author={Wahle, Jan Philip and Ruas, Terry and Folt{\`y}nek, Tom{\'a}{\v{s}} and Meuschke, Norman and Gipp, Bela},
booktitle={International Conference on Information},
pages={393--413},
year={2022},
organization={Springer}
}
```
## Download dataset
:modelscope-code[]{type="git"}
displayName: 机器释义剽窃识别(Identifying Machine-Paraphrased Plagiarism)
labelTypes: 分类任务
license: CC BY 4.0(知识共享署名4.0国际许可协议)
mediaTypes: 文本
paperUrl: https://arxiv.org/pdf/2103.11909v4.pdf
publishDate: "2021-01-14"
publishUrl: https://doi.org/10.5281/zenodo.3608000
publisher: 伍珀塔尔大学(University of Wuppertal)、布尔诺孟德尔大学(Mendel University in Brno)
tags: 释义文本(Paraphrased)
taskTypes: 文本分类
---
# 数据集介绍
## 简介
本数据集用于训练和评估机器释义文本检测模型。训练集源自8024篇英文维基百科文章(含4012篇原文与4012篇经SpinBot API生成的释义文本),共提取得到200767段文本,其中原文98282段,释义文本102485段。测试集分为3个子集,分别来自arXiv研究论文预印本、毕业论文与维基百科文章,且采用了多种机器释义(Machine-paraphrasing)方法。测试集详细构成如下:
- SpinBot 数据集:arXiv 原文20966段、释义文本20867段;毕业论文原文5226段、释义文本3463段;维基百科原文39241段、释义文本40729段
- SpinnerChief-4W 数据集:arXiv 原文20966段、释义文本21671段;毕业论文原文2379段、释义文本2941段;维基百科原文39241段、释义文本39618段
- SpinnerChief-2W 数据集:arXiv 原文20966段、释义文本21719段;毕业论文原文2379段、释义文本2941段;维基百科原文39241段、释义文本39697段
## 引文
@inproceedings{wahle2022identifying,
title={Identifying machine-paraphrased plagiarism},
author={Wahle, Jan Philip and Ruas, Terry and Foltýnek, Tomáš and Meuschke, Norman and Gipp, Bela},
booktitle={International Conference on Information},
pages={393--413},
year={2022},
organization={Springer}
}
## 数据集下载
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-11



