five

ParaPhraser Plus

收藏
arXiv2020-06-17 更新2024-06-21 收录
下载链接:
http://paraphraser.ru/download/
下载链接
链接失效反馈
官方服务:
资源简介:
ParaPhraser Plus是由圣彼得堡国立大学开发的一个大型俄语释义生成语料库,旨在解决俄语计算语言学中释义数据集的不足问题。该数据集包含超过5600万对潜在的释义对,来源于俄罗斯互联网监测服务'Webground'提供的新闻标题数据库。数据集的创建过程涉及从主题用户生成集群中提取所有可能的组合对,并排除相同令牌的配对。ParaPhraser Plus主要应用于释义生成任务,通过使用Universal Transformer架构进行文本生成实验,以提高释义系统的性能。

ParaPhraser Plus is a large-scale Russian paraphrase generation corpus developed by Saint Petersburg State University, aiming to address the shortage of paraphrase datasets in Russian computational linguistics. This corpus contains over 56 million potential paraphrase pairs, sourced from the news headline database provided by the Russian internet monitoring service 'Webground'. The construction process of this corpus involves extracting all possible pairwise combinations from topic-based user-generated clusters, while excluding pairs consisting of identical tokens. ParaPhraser Plus is primarily applied to paraphrase generation tasks, and has been employed in text generation experiments using the Universal Transformer architecture to improve the performance of paraphrase systems.
提供机构:
圣彼得堡国立大学
创建时间:
2020-06-17
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作