myPoetry
收藏github2023-04-20 更新2024-05-31 收录
下载链接:
https://github.com/ye-kyaw-thu/myPoetry
下载链接
链接失效反馈官方服务:
资源简介:
myPoetry数据集特别适合用于创意计算缅甸诗歌文本生成的应用。该数据集主要从公开可用的缅甸诗歌扫描PDF书籍中提取,包含诗人的名字、诗歌标题和诗句,适用于生成缅甸诗歌文本。
The myPoetry dataset is particularly suitable for applications in creative computing for generating Burmese poetry texts. This dataset is primarily extracted from publicly available scanned PDF books of Burmese poetry, containing the names of poets, titles of poems, and verses, making it ideal for generating Burmese poetry texts.
创建时间:
2023-04-18
原始信息汇总
数据集概述
数据集名称
- myPoetry (Myanmar Poetry Corpus)
数据集用途
- 适用于创意计算缅甸诗歌文本生成。
数据集版本
- Version 1.0
- 发布日期:2023年4月20日
数据集构成
- 来源:主要提取自公开可用的缅甸诗歌扫描PDF书籍,少量来自在线资源如Facebook。
- 内容:包含“标题”、“诗人姓名”和“诗歌行”。
- 详细信息:
- 诗人数量:393
- 独特诗歌标题数量:1,873
- 诗歌句子数量:46,933
数据集文件
- mypoetry-corpus-ver1.0.txt
- mypoetry-corpus-notitle-ver1.0.txt
数据集格式
-
包含标题和诗人姓名的格式:
Title: တက်လူ့တေးသံ By: ဇော်ဂျီ ကြက်ဖ သာလျှင် အာရုဏ်ရောင်လှ ၊ ဝင်းဝါကြ၏ ။
-
不包含标题和诗人姓名的格式:
ကြက်ဖ သာလျှင် အာရုဏ်ရောင်လှ ၊ ဝင်းဝါကြ၏ ။
数据集许可证
- Creative Commons Attribution-NonCommercial-Share Alike 4.0 International (CC BY-NC-SA 4.0)
搜集汇总
数据集介绍

构建方式
myPoetry数据集的构建主要依赖于缅甸诗歌的公开资源,包括扫描的PDF书籍以及部分来自社交媒体如Facebook的文本。为确保数据的准确性和质量,研究团队对几乎所有诗句进行了手动输入和校对。数据集1.0版本包含了诗歌的标题、作者姓名以及诗句内容,确保了数据的完整性和可用性。
特点
myPoetry数据集以其丰富的缅甸诗歌内容为特色,涵盖了393位诗人的1,873首独特标题的诗歌,共计46,933行诗句。数据集不仅提供了完整的诗歌信息,还提供了去除标题和作者姓名的版本,便于不同研究需求的使用。其多样性和广泛性为缅甸诗歌的生成与分析提供了坚实的基础。
使用方法
myPoetry数据集适用于多种自然语言处理任务,特别是缅甸诗歌的生成与分析。用户可以通过提供的文本文件直接访问诗歌内容,或使用数据集训练语言模型,如SRILM或GPT-2,以生成新的诗句。数据集的文件格式清晰,便于读取和处理,适合研究人员和开发者进行进一步的分析和实验。
背景与挑战
背景概述
myPoetry数据集是一个专门为缅甸诗歌生成任务设计的语料库,由Ye Kyaw Thu及其团队于2023年4月20日发布。该数据集主要从公开的缅甸诗歌扫描版PDF书籍中提取,部分内容来源于社交媒体平台如Facebook。数据集包含393位诗人的1,873首独特诗歌标题和46,933行诗句,涵盖了丰富的缅甸诗歌风格与主题。该数据集的发布为缅甸自然语言处理领域,尤其是诗歌生成任务提供了重要的资源支持,推动了缅甸文学与计算语言学的交叉研究。
当前挑战
myPoetry数据集在构建与应用过程中面临多重挑战。首先,缅甸诗歌的语言结构复杂,包含丰富的隐喻和修辞手法,这对生成模型的语义理解和表达能力提出了较高要求。其次,数据集的构建依赖于手动输入与校对,耗时且容易引入人为误差,尤其是在处理扫描版PDF时,文本识别的准确性难以保证。此外,缅甸语资源相对稀缺,数据集的规模与多样性有限,可能影响生成模型的泛化能力。如何在有限的语料基础上提升生成诗歌的多样性与艺术性,是该领域亟待解决的核心问题。
常用场景
经典使用场景
myPoetry数据集在缅甸诗歌生成领域具有重要应用,特别是在基于语言模型的诗歌创作中。通过使用SRILM和GPT-2等模型,研究者可以利用该数据集生成具有缅甸文化特色的诗歌文本。这些生成的诗句不仅展示了缅甸语言的韵律美,还为自然语言处理技术在低资源语言中的应用提供了宝贵的数据支持。
衍生相关工作
myPoetry数据集衍生了许多相关研究,特别是在缅甸语言的自然语言处理领域。基于该数据集,研究者开发了多种缅甸诗歌生成模型,如基于SRILM和GPT-2的生成系统。此外,该数据集还被用于缅甸诗歌的风格迁移研究,探索不同诗人风格的自动转换。这些研究不仅丰富了缅甸诗歌的数字化资源,也为低资源语言的文本生成研究提供了新的思路。
数据集最近研究
最新研究方向
在自然语言处理领域,myPoetry数据集为缅甸诗歌的自动生成研究提供了宝贵的资源。近年来,随着深度学习技术的快速发展,基于该数据集的诗歌生成模型逐渐成为研究热点。特别是利用GPT-2等预训练语言模型,研究者们能够生成具有较高文学价值的缅甸诗歌文本。这一研究方向不仅推动了缅甸语言文化的数字化进程,也为低资源语言的文本生成任务提供了新的思路。此外,该数据集在跨语言诗歌生成、文学风格迁移等前沿领域也展现出广阔的应用前景。
以上内容由遇见数据集搜集并总结生成



