PCD (Poem Comprehensive Dataset)
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/PCD
下载链接
链接失效反馈官方服务:
资源简介:
“阿拉伯语数据集主要从 الموسوعة الشعرية 和 الشعرية 和 الديوان 抓取。合并两者后,诗句总数为 1,831,770 诗句。每节诗都标有韵律、作者和时代写在。有22米,3701位诗人和11个时代:前伊斯兰,伊斯兰,倭马亚,马穆鲁克,阿拔斯,阿尤布,奥斯曼,安达卢西亚,倭马亚和阿拔斯之间的时代,法蒂玛,最后是现代。我们只感兴趣在归因于 Al-Farahidi 的 16 个经典米中,它们构成了数据集的大部分,总数约为 170 万节经文。需要注意的是,经文的变音符号状态并不一致。这意味着一个经文可以携带完整的,半变音符号,或者什么都没有。英语数据集是从许多不同的网络资源中抓取的。它由 199,002 节经文组成,每节都标有以下四个米之一:Iambic、Trochee、Dactyl 和 Anapaestic。 Iambic 类主导数据集吨;它们是 186,809 首 Iambic 诗句、5418 首 Trochee 诗句、5378 首 Anapaestic 诗句、1397 首 Dactyl 诗句。”
提供机构:
OpenDataLab
创建时间:
2022-05-09
搜集汇总
数据集介绍

背景与挑战
背景概述
PCD(Poem Comprehensive Dataset)是一个综合诗歌数据集,专注于诗韵分类,包含阿拉伯语和英语诗歌。阿拉伯语部分拥有约183万诗句,标注了韵律、作者和时代等信息;英语部分包含约19.9万诗句,分为四种韵律类型。该数据集旨在支持语言理解和合成研究。
以上内容由遇见数据集搜集并总结生成



