five

linhd-postdata/pulpo

收藏
Hugging Face2023-07-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/linhd-postdata/pulpo
下载链接
链接失效反馈
官方服务:
资源简介:
PULPO(Prolific Unannotated Literary Poetry Corpus)是一个多语言的诗歌语料库,包含超过9500万单词。该数据集由多个语料库组成,涵盖了西班牙语、英语、法语、意大利语、捷克语、葡萄牙语、阿拉伯语、中文、芬兰语、德语、匈牙利语和俄语的诗歌。这些语料库通过Averell工具下载,并来自不同的来源,如GitHub、Kaggle等。
提供机构:
linhd-postdata
原始信息汇总

数据集概述

数据集名称

  • 名称: Prolific Unannotated Literary Poetry Corpus (PULPO)

数据集描述

  • 描述: PULPO是一个多语言诗歌语料库,包含超过95M的单词,涵盖了多种语言的诗句和诗节。

数据集语言

  • 语言: 包括西班牙语、英语、法语、意大利语、捷克语、葡萄牙语、阿拉伯语、中文、芬兰语、德语、匈牙利语、俄语等。

数据集大小

  • 大小: 10M<n<100M

数据集内容来源

  • 西班牙语:
    • Disco v3
    • Corpus of Spanish Golden-Age Sonnets
    • Corpus general de poesía lírica castellana del Siglo de Oro
    • Gongocorpus
    • Poesi.as
  • 英语:
    • Eighteenth-Century Poetry Archive (ECPA)
    • For better for verse
    • A Gutenberg Poetry Corpus
  • 法语:
    • Métrique en Ligne
  • 意大利语:
    • Biblioteca italiana
  • 捷克语:
    • Corpus of Czech Verse
  • 葡萄牙语:
    • Stichotheque
    • Poems in Portuguese
  • 阿拉伯语:
    • Arabic Poetry dataset
  • 中文:
    • THU Chinese Classical Poetry Corpus
  • 芬兰语:
    • SKVR
  • 德语:
    • TextGrid Poetry Corpus
    • German Rhyme Corpus
  • 匈牙利语:
    • verskorpusz
  • 俄语:
    • 19 000 Russian poems
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作