Benchmark for Neural Paraphrase Detection
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Benchmark_for_Neural_Paraphrase_etc
下载链接
链接失效反馈官方服务:
资源简介:
这是神经释义检测的基准,用于区分原始内容和机器生成的内容。训练:从 4,012 篇(英文)维基百科文章中提取 1,474,230 个对齐的段落(98,282 个原始段落,1,375,948 个用 3 个模型和 5 个超参数配置进行释义的段落,每个 98,282 个)。测试:BERT-large(加壳):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241; RoBERTa-large (case):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241; Longformer-large(未加壳):arXiv - Original - 20,966;释义 - 20,966;论文 - 原创 - 5,226;释义 - 5,226;维基百科 - 原始 - 39,241;释义 - 39,241;
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是用于神经释义检测的基准,旨在区分原始内容和机器生成的内容。其训练数据包含从英文维基百科文章中提取的约147万个对齐段落,测试数据则涉及BERT-large、RoBERTa-large和Longformer-large等模型在arXiv、论文和维基百科数据集上的评估。
以上内容由遇见数据集搜集并总结生成



