Benchmark_for_Neural_Paraphrase_etc

Name: Benchmark_for_Neural_Paraphrase_etc
Creator: maas
Published: 2025-07-15 16:15:22
License: 暂无描述

魔搭社区2025-07-15 更新2024-08-31 收录

下载链接：

https://modelscope.cn/datasets/OmniData/Benchmark_for_Neural_Paraphrase_etc

下载链接

链接失效反馈

官方服务：

资源简介：

displayName: Benchmark for Neural Paraphrase Detection labelTypes: - Text license: - CC BY 4.0 mediaTypes: - Text paperUrl: https://arxiv.org/pdf/2103.12450v3.pdf publishDate: "2021-03-19" publishUrl: https://zenodo.org/record/4621403#.YFs1Xkj7SL8 publisher: - University of Wuppertal tags: - Text taskTypes: - Text Matching - Paraphrase Identification --- # 数据集介绍 ## 简介这是神经释义检测的基准，用于区分原始内容和机器生成的内容。训练：从 4,012 篇（英文）维基百科文章中提取 1,474,230 个对齐的段落（98,282 个原始段落，1,375,948 个用 3 个模型和 5 个超参数配置进行释义的段落，每个 98,282 个）。测试：BERT-large（加壳）：arXiv - Original - 20,966；释义 - 20,966；论文 - 原创 - 5,226；释义 - 5,226；维基百科 - 原始 - 39,241；释义 - 39,241； RoBERTa-large (case)：arXiv - Original - 20,966；释义 - 20,966；论文 - 原创 - 5,226；释义 - 5,226；维基百科 - 原始 - 39,241；释义 - 39,241； Longformer-large（未加壳）：arXiv - Original - 20,966；释义 - 20,966；论文 - 原创 - 5,226；释义 - 5,226；维基百科 - 原始 - 39,241；释义 - 39,241； ## 引文 ``` @inproceedings{wahle2021neural, title={Are neural language models good plagiarists? a benchmark for neural paraphrase detection}, author={Wahle, Jan Philip and Ruas, Terry and Meuschke, Norman and Gipp, Bela}, booktitle={2021 ACM/IEEE Joint Conference on Digital Libraries (JCDL)}, pages={226--229}, year={2021}, organization={IEEE} } ``` ## Download dataset :modelscope-code[]{type="git"}

displayName: 神经释义检测基准（Neural Paraphrase Detection Benchmark） labelTypes: - 文本（Text） license: - 知识共享署名4.0（CC BY 4.0） mediaTypes: - 文本（Text） paperUrl: https://arxiv.org/pdf/2103.12450v3.pdf publishDate: "2021-03-19" publishUrl: https://zenodo.org/record/4621403#.YFs1Xkj7SL8 publisher: - 伍珀塔尔大学（University of Wuppertal） tags: - 文本（Text） taskTypes: - 文本匹配（Text Matching） - 释义识别（Paraphrase Identification） --- # 数据集介绍 ## 简介本数据集为神经释义检测基准数据集，用于区分原始文本与机器生成的释义文本。训练集构建：从4012篇（英文）维基百科文章中提取1,474,230个对齐段落，其中包含98,282个原始段落，以及通过3个模型与5个超参数配置生成的1,375,948个释义段落（每个原始段落对应98,282个释义样本）。测试集分为以下三类模型测试子集： 1. BERT-large（加壳版）：arXiv来源原始文本20,966条、释义文本20,966条；论文来源原始文本5,226条、释义文本5,226条；维基百科来源原始文本39,241条、释义文本39,241条。 2. RoBERTa-large（区分大小写版）：arXiv来源原始文本20,966条、释义文本20,966条；论文来源原始文本5,226条、释义文本5,226条；维基百科来源原始文本39,241条、释义文本39,241条。 3. Longformer-large（无壳版）：arXiv来源原始文本20,966条、释义文本20,966条；论文来源原始文本5,226条、释义文本5,226条；维基百科来源原始文本39,241条、释义文本39,241条。 ## 引文 @inproceedings{wahle2021neural, title={Are neural language models good plagiarists? a benchmark for neural paraphrase detection}, author={Wahle, Jan Philip and Ruas, Terry and Meuschke, Norman and Gipp, Bela}, booktitle={2021 ACM/IEEE Joint Conference on Digital Libraries (JCDL)}, pages={226--229}, year={2021}, organization={IEEE} } ## Download dataset :modelscope-code[]{type="git"}

提供机构：

maas

创建时间：

2024-07-10

5,000+

优质数据集

54 个

任务类型

进入经典数据集