Benchmark for Neural Paraphrase Detection

Name: Benchmark for Neural Paraphrase Detection
Creator: OpenDataLab
License: 暂无描述

OpenXLab2026-04-18 收录

下载链接：

https://openxlab.org.cn/datasets/OpenDataLab/Benchmark_for_Neural_Paraphrase_etc

下载链接

链接失效反馈

官方服务：

资源简介：

这是神经释义检测的基准，用于区分原始内容和机器生成的内容。训练：从 4,012 篇（英文）维基百科文章中提取 1,474,230 个对齐的段落（98,282 个原始段落，1,375,948 个用 3 个模型和 5 个超参数配置进行释义的段落，每个 98,282 个）。测试：BERT-large（加壳）：arXiv - Original - 20,966；释义 - 20,966；论文 - 原创 - 5,226；释义 - 5,226；维基百科 - 原始 - 39,241；释义 - 39,241； RoBERTa-large (case)：arXiv - Original - 20,966；释义 - 20,966；论文 - 原创 - 5,226；释义 - 5,226；维基百科 - 原始 - 39,241；释义 - 39,241； Longformer-large（未加壳）：arXiv - Original - 20,966；释义 - 20,966；论文 - 原创 - 5,226；释义 - 5,226；维基百科 - 原始 - 39,241；释义 - 39,241；

提供机构：

OpenDataLab

创建时间：

2022-05-23

5,000+

优质数据集

54 个

任务类型

进入经典数据集