linhd-postdata/pulpo
收藏Hugging Face2023-07-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/linhd-postdata/pulpo
下载链接
链接失效反馈官方服务:
资源简介:
PULPO(Prolific Unannotated Literary Poetry Corpus)是一个多语言的诗歌语料库,包含超过9500万单词。该数据集由多个语料库组成,涵盖了西班牙语、英语、法语、意大利语、捷克语、葡萄牙语、阿拉伯语、中文、芬兰语、德语、匈牙利语和俄语的诗歌。这些语料库通过Averell工具下载,并来自不同的来源,如GitHub、Kaggle等。
提供机构:
linhd-postdata
原始信息汇总
数据集概述
数据集名称
- 名称: Prolific Unannotated Literary Poetry Corpus (PULPO)
数据集描述
- 描述: PULPO是一个多语言诗歌语料库,包含超过95M的单词,涵盖了多种语言的诗句和诗节。
数据集语言
- 语言: 包括西班牙语、英语、法语、意大利语、捷克语、葡萄牙语、阿拉伯语、中文、芬兰语、德语、匈牙利语、俄语等。
数据集大小
- 大小: 10M<n<100M
数据集内容来源
- 西班牙语:
- Disco v3
- Corpus of Spanish Golden-Age Sonnets
- Corpus general de poesía lírica castellana del Siglo de Oro
- Gongocorpus
- Poesi.as
- 英语:
- Eighteenth-Century Poetry Archive (ECPA)
- For better for verse
- A Gutenberg Poetry Corpus
- 法语:
- Métrique en Ligne
- 意大利语:
- Biblioteca italiana
- 捷克语:
- Corpus of Czech Verse
- 葡萄牙语:
- Stichotheque
- Poems in Portuguese
- 阿拉伯语:
- Arabic Poetry dataset
- 中文:
- THU Chinese Classical Poetry Corpus
- 芬兰语:
- SKVR
- 德语:
- TextGrid Poetry Corpus
- German Rhyme Corpus
- 匈牙利语:
- verskorpusz
- 俄语:
- 19 000 Russian poems



