five

NCube/papyrus

收藏
Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NCube/papyrus
下载链接
链接失效反馈
官方服务:
资源简介:
数据集来源于Papyrus,这是一个位于蒙特利尔大学的文档库,主要包含多种语言的论文摘要,特别是法语和英语。数据集提供了四种不同的配置,基于摘要的语言,允许生成法语、英语或多语言的关键词。具体配置包括:Papyrus-f(从法语摘要生成法语关键词)、Papyrus-e(从英语摘要生成英语关键词)、Papyrus-m(从任何一种语言的摘要生成该语言的关键词)、Papyrus-a(从文档的多个摘要生成与摘要相同语言的关键词)。数据集的主要语言为英语和法语,还包括西班牙语、德语、意大利语、葡萄牙语、阿拉伯语、他加禄语、加泰罗尼亚语、希腊语、土耳其语、俄语、波兰语、波斯语、印尼语、林加拉语、瑞典语、芬兰语、罗马尼亚语和韩语。

数据集来源于Papyrus,这是一个位于蒙特利尔大学的文档库,主要包含多种语言的论文摘要,特别是法语和英语。数据集提供了四种不同的配置,基于摘要的语言,允许生成法语、英语或多语言的关键词。具体配置包括:Papyrus-f(从法语摘要生成法语关键词)、Papyrus-e(从英语摘要生成英语关键词)、Papyrus-m(从任何一种语言的摘要生成该语言的关键词)、Papyrus-a(从文档的多个摘要生成与摘要相同语言的关键词)。数据集的主要语言为英语和法语,还包括西班牙语、德语、意大利语、葡萄牙语、阿拉伯语、他加禄语、加泰罗尼亚语、希腊语、土耳其语、俄语、波兰语、波斯语、印尼语、林加拉语、瑞典语、芬兰语、罗马尼亚语和韩语。
提供机构:
NCube
原始信息汇总

数据集卡片 for Papyrus

数据集描述

数据集概述

Papyrus数据集源自Université de Montréal的Papyrus仓库,包含多种类型的文档,主要是多语言摘要的论文。数据集提供四种不同的配置,基于摘要的语言,允许生成法语、英语或多种语言的关键短语。

  • Papyrus-f: 从法语摘要生成法语关键短语。
  • Papyrus-e: 从英语摘要生成英语关键短语。
  • Papyrus-m: 从一个任意语言的摘要生成相同语言的关键短语(一对一语言)。
  • Papyrus-a: 从文档的多语言摘要生成相同语言的关键短语(多对多语言)。

语言

  • 主要语言: 英语, 法语
  • 其他语言: 西班牙语, 德语, 意大利语, 葡萄牙语, 阿拉伯语, 塔加洛语, 加泰罗尼亚语, 希腊语, 土耳其语, 俄语, 波兰语, 波斯语, 印度尼西亚语, 林加拉语, 瑞典语, 芬兰语, 罗马尼亚语, 韩语

数据集结构

数据集内容

配置 训练集大小 验证集大小 测试集大小
papyrus-m 20963 3040 6061
papyrus-e 10508 1539 3046
papyrus-f 10299 1488 2981
papyrus-a 11290 1638 3261

数据字段

  • doc_id: 原始文档的唯一ID。
  • title: 论文或文章的标题(标题的语言不一定与摘要/关键短语的语言匹配)。
  • input_text: 文档的摘要。
  • keyphrases: 相关关键短语。
  • lang: 摘要/关键短语的语言。

引用

@inproceedings{NEURIPS2022_f8870955, author = {Piedboeuf, Fr{e}d{e}ric and Langlais, Philippe}, booktitle = {Advances in Neural Information Processing Systems}, editor = {S. Koyejo and S. Mohamed and A. Agarwal and D. Belgrave and K. Cho and A. Oh}, pages = {38046--38059}, publisher = {Curran Associates, Inc.}, title = {A new dataset for multilingual keyphrase generation}, url = {https://proceedings.neurips.cc/paper_files/paper/2022/file/f88709551258331f9ab31b33c71021a4-Paper-Datasets_and_Benchmarks.pdf}, volume = {35}, year = {2022} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作