Pseudo Document-Level Paraphrase Dataset

Name: Pseudo Document-Level Paraphrase Dataset
Creator: Generated from sentence-level paraphrase dataset
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

http://www.statmt.org/wmt20/translation-task.html

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个由句级平行语料库中独立改写每个句子而生成的伪文档级平行语料库。它的创建源于缺乏一个黄金标准的文档级平行语料库。为了满足这一需求，该数据集被用于训练CoRPG模型以及评估文档级改写的生成效果。此外，该数据集中包含了从新闻评论中抽取的3000篇文档，以支持文档级改写生成的相关研究任务。

This dataset is a pseudo-document-level parallel corpus generated by independently rephrasing each sentence within a sentence-level parallel corpus. It was developed to address the shortage of gold-standard document-level parallel corpora. To meet this demand, this dataset has been employed for training the CoRPG model and evaluating the generation performance of document-level rephrasing tasks. Furthermore, this dataset includes 3000 documents extracted from news comments to support relevant research tasks related to document-level rephrasing generation.

提供机构：

Generated from sentence-level paraphrase dataset

5,000+

优质数据集

54 个

任务类型

进入经典数据集