PoeTree|诗歌语料库数据集|多语言数据集
收藏数据集概述
Poetree是一个包含超过330,000首诗歌的标准化集合,涵盖十种语言(捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、俄语、斯洛文尼亚语和西班牙语)。每个语料库都经过去重处理,并丰富了通用依存关系,提供了额外的元数据,并转换为统一的JSON结构。
数据集内容
- Poetree:代表整个Poetree集合。
- Corpus:代表单个语料库。
- Author:代表单个作者。
- Source:代表单个书籍。
- Poem:代表单个诗歌。
数据集操作
- 安装:通过pip安装poetree库。
- 使用:通过导入poetree库,可以使用其提供的五个类进行数据操作。
- 获取数据:
- 通过
get_corpora()
,get_authors()
,get_sources()
,get_poems()
方法获取相应数据。 - 通过
get_body()
方法获取诗歌的详细内容。 - 通过
get_all()
方法同时获取诗歌的元数据和详细内容。
- 通过
- 元数据访问:通过
metadata()
方法访问元数据,支持多种输出格式。
示例代码
python corpus = poetree.Corpus(cs) print(number of authors:, corpus.n_authors) print(number of poems:, corpus.n_poems)
corpus = poetree.Corpus(en) for author in corpus.get_authors(born_after=1750, born_before=1760): print(f{author.name} ({author.born}))
poem = poetree.Poem(id_=1, lang=cs) body = poem.get_body() print(body[0])
poem = poetree.Poem(id_=1, lang=cs) metadata_and_body = poem.get_all()

poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录