Benchmark for Neural Paraphrase Detection

Name: Benchmark for Neural Paraphrase Detection
Creator: OpenDataLab
Published: 2026-05-24 05:30:06
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Benchmark_for_Neural_Paraphrase_etc

下载链接

链接失效反馈

官方服务：

资源简介：

这是神经释义检测的基准，用于区分原始内容和机器生成的内容。训练：从 4,012 篇（英文）维基百科文章中提取 1,474,230 个对齐的段落（98,282 个原始段落，1,375,948 个用 3 个模型和 5 个超参数配置进行释义的段落，每个 98,282 个）。测试：BERT-large（加壳）：arXiv - Original - 20,966；释义 - 20,966；论文 - 原创 - 5,226；释义 - 5,226；维基百科 - 原始 - 39,241；释义 - 39,241； RoBERTa-large (case)：arXiv - Original - 20,966；释义 - 20,966；论文 - 原创 - 5,226；释义 - 5,226；维基百科 - 原始 - 39,241；释义 - 39,241； Longformer-large（未加壳）：arXiv - Original - 20,966；释义 - 20,966；论文 - 原创 - 5,226；释义 - 5,226；维基百科 - 原始 - 39,241；释义 - 39,241；

提供机构：

OpenDataLab

创建时间：

2022-05-23

搜集汇总

数据集介绍