NCube/papyrus
收藏Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NCube/papyrus
下载链接
链接失效反馈官方服务:
资源简介:
数据集来源于Papyrus,这是一个位于蒙特利尔大学的文档库,主要包含多种语言的论文摘要,特别是法语和英语。数据集提供了四种不同的配置,基于摘要的语言,允许生成法语、英语或多语言的关键词。具体配置包括:Papyrus-f(从法语摘要生成法语关键词)、Papyrus-e(从英语摘要生成英语关键词)、Papyrus-m(从任何一种语言的摘要生成该语言的关键词)、Papyrus-a(从文档的多个摘要生成与摘要相同语言的关键词)。数据集的主要语言为英语和法语,还包括西班牙语、德语、意大利语、葡萄牙语、阿拉伯语、他加禄语、加泰罗尼亚语、希腊语、土耳其语、俄语、波兰语、波斯语、印尼语、林加拉语、瑞典语、芬兰语、罗马尼亚语和韩语。
数据集来源于Papyrus,这是一个位于蒙特利尔大学的文档库,主要包含多种语言的论文摘要,特别是法语和英语。数据集提供了四种不同的配置,基于摘要的语言,允许生成法语、英语或多语言的关键词。具体配置包括:Papyrus-f(从法语摘要生成法语关键词)、Papyrus-e(从英语摘要生成英语关键词)、Papyrus-m(从任何一种语言的摘要生成该语言的关键词)、Papyrus-a(从文档的多个摘要生成与摘要相同语言的关键词)。数据集的主要语言为英语和法语,还包括西班牙语、德语、意大利语、葡萄牙语、阿拉伯语、他加禄语、加泰罗尼亚语、希腊语、土耳其语、俄语、波兰语、波斯语、印尼语、林加拉语、瑞典语、芬兰语、罗马尼亚语和韩语。
提供机构:
NCube
原始信息汇总
数据集卡片 for Papyrus
数据集描述
数据集概述
Papyrus数据集源自Université de Montréal的Papyrus仓库,包含多种类型的文档,主要是多语言摘要的论文。数据集提供四种不同的配置,基于摘要的语言,允许生成法语、英语或多种语言的关键短语。
- Papyrus-f: 从法语摘要生成法语关键短语。
- Papyrus-e: 从英语摘要生成英语关键短语。
- Papyrus-m: 从一个任意语言的摘要生成相同语言的关键短语(一对一语言)。
- Papyrus-a: 从文档的多语言摘要生成相同语言的关键短语(多对多语言)。
语言
- 主要语言: 英语, 法语
- 其他语言: 西班牙语, 德语, 意大利语, 葡萄牙语, 阿拉伯语, 塔加洛语, 加泰罗尼亚语, 希腊语, 土耳其语, 俄语, 波兰语, 波斯语, 印度尼西亚语, 林加拉语, 瑞典语, 芬兰语, 罗马尼亚语, 韩语
数据集结构
数据集内容
| 配置 | 训练集大小 | 验证集大小 | 测试集大小 |
|---|---|---|---|
| papyrus-m | 20963 | 3040 | 6061 |
| papyrus-e | 10508 | 1539 | 3046 |
| papyrus-f | 10299 | 1488 | 2981 |
| papyrus-a | 11290 | 1638 | 3261 |
数据字段
- doc_id: 原始文档的唯一ID。
- title: 论文或文章的标题(标题的语言不一定与摘要/关键短语的语言匹配)。
- input_text: 文档的摘要。
- keyphrases: 相关关键短语。
- lang: 摘要/关键短语的语言。
引用
@inproceedings{NEURIPS2022_f8870955, author = {Piedboeuf, Fr{e}d{e}ric and Langlais, Philippe}, booktitle = {Advances in Neural Information Processing Systems}, editor = {S. Koyejo and S. Mohamed and A. Agarwal and D. Belgrave and K. Cho and A. Oh}, pages = {38046--38059}, publisher = {Curran Associates, Inc.}, title = {A new dataset for multilingual keyphrase generation}, url = {https://proceedings.neurips.cc/paper_files/paper/2022/file/f88709551258331f9ab31b33c71021a4-Paper-Datasets_and_Benchmarks.pdf}, volume = {35}, year = {2022} }



