PARANMT-50M
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/PARANMT-50M
下载链接
链接失效反馈官方服务:
资源简介:
我们描述了 PARANMT-50M,这是一个包含超过 5000 万个英语-英语句子释义对的数据集。在 Wieting 等人之后,我们通过使用神经机器翻译来翻译大型平行语料库的非英语部分来自动生成对。 (2017)。我们希望 ParaNMT-50M 可以成为释义生成的宝贵资源,并可以提供丰富的语义知识来源,以改善下游自然语言理解任务。为了展示它的实用性,我们使用 ParaNMT-50M 来训练在每个 SemEval 语义文本相似度竞争中优于所有监督系统的释义句子嵌入,此外还展示了它如何用于释义生成。
We introduce PARANMT-50M, a dataset containing over 50 million English-English sentence paraphrase pairs. Following the work of Wieting et al. (2017), we automatically generate these pairs by translating the non-English segments of large parallel corpora using neural machine translation. We anticipate that ParaNMT-50M will serve as a valuable resource for paraphrase generation and a rich source of semantic knowledge to improve downstream natural language understanding tasks. To demonstrate its utility, we use ParaNMT-50M to train paraphrase sentence embeddings that outperform all supervised systems in every SemEval Semantic Textual Similarity competition, and additionally showcase its application in paraphrase generation.
提供机构:
OpenDataLab
创建时间:
2022-06-07
搜集汇总
数据集介绍

背景与挑战
背景概述
PARANMT-50M是一个超过5000万句对的英语-英语释义数据集,通过神经机器翻译自动构建。它可用于释义生成和语义文本相似度任务,在SemEval竞赛中表现优异,为自然语言理解提供丰富的语义知识。
以上内容由遇见数据集搜集并总结生成



