five

Pseudo Document-Level Paraphrase Dataset

收藏
arXiv2025-09-30 收录
下载链接:
http://www.statmt.org/wmt20/translation-task.html
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个由句级平行语料库中独立改写每个句子而生成的伪文档级平行语料库。它的创建源于缺乏一个黄金标准的文档级平行语料库。为了满足这一需求,该数据集被用于训练CoRPG模型以及评估文档级改写的生成效果。此外,该数据集中包含了从新闻评论中抽取的3000篇文档,以支持文档级改写生成的相关研究任务。

This dataset is a pseudo-document-level parallel corpus generated by independently rephrasing each sentence within a sentence-level parallel corpus. It was developed to address the shortage of gold-standard document-level parallel corpora. To meet this demand, this dataset has been employed for training the CoRPG model and evaluating the generation performance of document-level rephrasing tasks. Furthermore, this dataset includes 3000 documents extracted from news comments to support relevant research tasks related to document-level rephrasing generation.
提供机构:
Generated from sentence-level paraphrase dataset
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作