five

PCD (Poem Comprehensive Dataset)

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/PCD
下载链接
链接失效反馈
官方服务:
资源简介:
“阿拉伯语数据集主要从 الموسوعة الشعرية 和 الشعرية 和 الديوان 抓取。合并两者后,诗句总数为 1,831,770 诗句。每节诗都标有韵律、作者和时代写在。有22米,3701位诗人和11个时代:前伊斯兰,伊斯兰,倭马亚,马穆鲁克,阿拔斯,阿尤布,奥斯曼,安达卢西亚,倭马亚和阿拔斯之间的时代,法蒂玛,最后是现代。我们只感兴趣在归因于 Al-Farahidi 的 16 个经典米中,它们构成了数据集的大部分,总数约为 170 万节经文。需要注意的是,经文的变音符号状态并不一致。这意味着一个经文可以携带完整的,半变音符号,或者什么都没有。英语数据集是从许多不同的网络资源中抓取的。它由 199,002 节经文组成,每节都标有以下四个米之一:Iambic、Trochee、Dactyl 和 Anapaestic。 Iambic 类主导数据集吨;它们是 186,809 首 Iambic 诗句、5418 首 Trochee 诗句、5378 首 Anapaestic 诗句、1397 首 Dactyl 诗句。”
提供机构:
OpenDataLab
创建时间:
2022-05-09
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
PCD(Poem Comprehensive Dataset)是一个综合诗歌数据集,专注于诗韵分类,包含阿拉伯语和英语诗歌。阿拉伯语部分拥有约183万诗句,标注了韵律、作者和时代等信息;英语部分包含约19.9万诗句,分为四种韵律类型。该数据集旨在支持语言理解和合成研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作