five

Benchmark_for_Neural_Paraphrase_etc

收藏
魔搭社区2025-07-15 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Benchmark_for_Neural_Paraphrase_etc
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: Benchmark for Neural Paraphrase Detection labelTypes: - Text license: - CC BY 4.0 mediaTypes: - Text paperUrl: https://arxiv.org/pdf/2103.12450v3.pdf publishDate: "2021-03-19" publishUrl: https://zenodo.org/record/4621403#.YFs1Xkj7SL8 publisher: - University of Wuppertal tags: - Text taskTypes: - Text Matching - Paraphrase Identification --- # 数据集介绍 ## 简介 这是神经释义检测的基准,用于区分原始内容和机器生成的内容。训练:从 4,012 篇(英文)维基百科文章中提取 1,474,230 个对齐的段落(98,282 个原始段落,1,375,948 个用 3 个模型和 5 个超参数配置进行释义的段落,每个 98,282 个)。测试:BERT-large(加壳):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241; RoBERTa-large (case):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241; Longformer-large(未加壳):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241; ## 引文 ``` @inproceedings{wahle2021neural, title={Are neural language models good plagiarists? a benchmark for neural paraphrase detection}, author={Wahle, Jan Philip and Ruas, Terry and Meuschke, Norman and Gipp, Bela}, booktitle={2021 ACM/IEEE Joint Conference on Digital Libraries (JCDL)}, pages={226--229}, year={2021}, organization={IEEE} } ``` ## Download dataset :modelscope-code[]{type="git"}

displayName: 神经释义检测基准(Neural Paraphrase Detection Benchmark) labelTypes: - 文本(Text) license: - 知识共享署名4.0(CC BY 4.0) mediaTypes: - 文本(Text) paperUrl: https://arxiv.org/pdf/2103.12450v3.pdf publishDate: "2021-03-19" publishUrl: https://zenodo.org/record/4621403#.YFs1Xkj7SL8 publisher: - 伍珀塔尔大学(University of Wuppertal) tags: - 文本(Text) taskTypes: - 文本匹配(Text Matching) - 释义识别(Paraphrase Identification) --- # 数据集介绍 ## 简介 本数据集为神经释义检测基准数据集,用于区分原始文本与机器生成的释义文本。训练集构建:从4012篇(英文)维基百科文章中提取1,474,230个对齐段落,其中包含98,282个原始段落,以及通过3个模型与5个超参数配置生成的1,375,948个释义段落(每个原始段落对应98,282个释义样本)。测试集分为以下三类模型测试子集: 1. BERT-large(加壳版):arXiv来源原始文本20,966条、释义文本20,966条;论文来源原始文本5,226条、释义文本5,226条;维基百科来源原始文本39,241条、释义文本39,241条。 2. RoBERTa-large(区分大小写版):arXiv来源原始文本20,966条、释义文本20,966条;论文来源原始文本5,226条、释义文本5,226条;维基百科来源原始文本39,241条、释义文本39,241条。 3. Longformer-large(无壳版):arXiv来源原始文本20,966条、释义文本20,966条;论文来源原始文本5,226条、释义文本5,226条;维基百科来源原始文本39,241条、释义文本39,241条。 ## 引文 @inproceedings{wahle2021neural, title={Are neural language models good plagiarists? a benchmark for neural paraphrase detection}, author={Wahle, Jan Philip and Ruas, Terry and Meuschke, Norman and Gipp, Bela}, booktitle={2021 ACM/IEEE Joint Conference on Digital Libraries (JCDL)}, pages={226--229}, year={2021}, organization={IEEE} } ## Download dataset :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作