Benchmark for Neural Paraphrase Detection
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Benchmark_for_Neural_Paraphrase_etc
下载链接
链接失效反馈官方服务:
资源简介:
这是神经释义检测的基准,用于区分原始内容和机器生成的内容。训练:从 4,012 篇(英文)维基百科文章中提取 1,474,230 个对齐的段落(98,282 个原始段落,1,375,948 个用 3 个模型和 5 个超参数配置进行释义的段落,每个 98,282 个)。测试:BERT-large(加壳):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241; RoBERTa-large (case):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241; Longformer-large(未加壳):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241;
提供机构:
OpenDataLab
创建时间:
2022-05-23



