Benchmark_for_Neural_Paraphrase_etc
收藏魔搭社区2025-07-15 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Benchmark_for_Neural_Paraphrase_etc
下载链接
链接失效反馈官方服务:
资源简介:
displayName: Benchmark for Neural Paraphrase Detection
labelTypes:
- Text
license:
- CC BY 4.0
mediaTypes:
- Text
paperUrl: https://arxiv.org/pdf/2103.12450v3.pdf
publishDate: "2021-03-19"
publishUrl: https://zenodo.org/record/4621403#.YFs1Xkj7SL8
publisher:
- University of Wuppertal
tags:
- Text
taskTypes:
- Text Matching
- Paraphrase Identification
---
# 数据集介绍
## 简介
这是神经释义检测的基准,用于区分原始内容和机器生成的内容。训练:从 4,012 篇(英文)维基百科文章中提取 1,474,230 个对齐的段落(98,282 个原始段落,1,375,948 个用 3 个模型和 5 个超参数配置进行释义的段落,每个 98,282 个)。测试:BERT-large(加壳):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241; RoBERTa-large (case):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241; Longformer-large(未加壳):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241;
## 引文
```
@inproceedings{wahle2021neural,
title={Are neural language models good plagiarists? a benchmark for neural paraphrase detection},
author={Wahle, Jan Philip and Ruas, Terry and Meuschke, Norman and Gipp, Bela},
booktitle={2021 ACM/IEEE Joint Conference on Digital Libraries (JCDL)},
pages={226--229},
year={2021},
organization={IEEE}
}
```
## Download dataset
:modelscope-code[]{type="git"}
displayName: 神经释义检测基准(Neural Paraphrase Detection Benchmark)
labelTypes:
- 文本(Text)
license:
- 知识共享署名4.0(CC BY 4.0)
mediaTypes:
- 文本(Text)
paperUrl: https://arxiv.org/pdf/2103.12450v3.pdf
publishDate: "2021-03-19"
publishUrl: https://zenodo.org/record/4621403#.YFs1Xkj7SL8
publisher:
- 伍珀塔尔大学(University of Wuppertal)
tags:
- 文本(Text)
taskTypes:
- 文本匹配(Text Matching)
- 释义识别(Paraphrase Identification)
---
# 数据集介绍
## 简介
本数据集为神经释义检测基准数据集,用于区分原始文本与机器生成的释义文本。训练集构建:从4012篇(英文)维基百科文章中提取1,474,230个对齐段落,其中包含98,282个原始段落,以及通过3个模型与5个超参数配置生成的1,375,948个释义段落(每个原始段落对应98,282个释义样本)。测试集分为以下三类模型测试子集:
1. BERT-large(加壳版):arXiv来源原始文本20,966条、释义文本20,966条;论文来源原始文本5,226条、释义文本5,226条;维基百科来源原始文本39,241条、释义文本39,241条。
2. RoBERTa-large(区分大小写版):arXiv来源原始文本20,966条、释义文本20,966条;论文来源原始文本5,226条、释义文本5,226条;维基百科来源原始文本39,241条、释义文本39,241条。
3. Longformer-large(无壳版):arXiv来源原始文本20,966条、释义文本20,966条;论文来源原始文本5,226条、释义文本5,226条;维基百科来源原始文本39,241条、释义文本39,241条。
## 引文
@inproceedings{wahle2021neural,
title={Are neural language models good plagiarists? a benchmark for neural paraphrase detection},
author={Wahle, Jan Philip and Ruas, Terry and Meuschke, Norman and Gipp, Bela},
booktitle={2021 ACM/IEEE Joint Conference on Digital Libraries (JCDL)},
pages={226--229},
year={2021},
organization={IEEE}
}
## Download dataset
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-10



