Bengali Poem Dataset

github2022-12-27 更新2024-05-31 收录

下载链接：

https://github.com/shuhanmirza/Bengali-Poem-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们准备了一个新颖的stylometric数据集，包含6,070首来自137位诗人的Bengali诗歌，这些诗歌以文本格式存储。据我们所知，这是首个针对Bengali诗歌的stylometric数据集。

We present a novel stylometric dataset containing 6,070 Bengali poems composed by 137 poets, stored in text format. To the best of our knowledge, this is the first stylometric dataset dedicated to Bengali poetry.

创建时间：

2022-11-09

原始信息汇总

孟加拉诗歌数据集

孟加拉诗歌的风格学研究仍处于早期发展阶段。我们准备了一个新颖的风格学数据集，包含137位诗人的6,070首诗歌，以文本格式存储。据我们所知，这是首个孟加拉诗歌的风格学数据集。我们欢迎合作，请随时提出拉取请求。

研究论文

我们的第一篇论文已在2022年国际自然语言处理与信息检索会议（NLPIR）的会议录中发表。

致谢

我们感谢bKash Limited部分资助了这项研究。

搜集汇总

数据集介绍

构建方式

Bengali Poem Dataset的构建基于对孟加拉语诗歌的文体学研究需求，涵盖了137位诗人的6070首诗歌。这些诗歌以文本格式存储，确保了数据的原始性和可分析性。数据集的构建过程严格遵循学术标准，旨在为文体学研究提供高质量的基础数据。

特点

该数据集作为首个针对孟加拉语诗歌的文体学数据集，具有显著的创新性和独特性。其涵盖了广泛的诗人作品，为研究者提供了丰富的文本资源。数据集的结构化存储方式便于进行深入的文体特征分析，如韵律、用词风格等，为相关领域的定量研究提供了重要支持。

使用方法

使用Bengali Poem Dataset时，研究者可通过文本分析工具对诗歌的文体特征进行量化研究。数据集支持多种自然语言处理任务，如风格分类、作者识别等。用户可通过GitHub平台获取数据，并按照研究需求进行预处理和分析。同时，数据集鼓励学术合作，用户可通过提交Pull Request参与数据集的扩展与优化。

背景与挑战

背景概述

Bengali Poem Dataset 是一个专注于孟加拉语诗歌风格计量研究的创新数据集，由研究人员在2022年首次构建并发布。该数据集收录了137位诗人的6,070首诗歌，以文本格式存储，旨在为孟加拉语诗歌的风格分析提供基础数据支持。该数据集的研究成果已在国际自然语言处理与信息检索会议（NLPIR）上发表，标志着孟加拉语诗歌风格计量研究领域的重要进展。该数据集的创建得到了bKash Limited的部分资助，为相关领域的学者提供了宝贵的研究资源。

当前挑战

Bengali Poem Dataset 的构建面临多重挑战。首先，孟加拉语诗歌的风格计量研究尚处于起步阶段，缺乏成熟的标注标准和参考框架，这为数据集的构建带来了技术上的复杂性。其次，诗歌文本的多样性和复杂性使得风格特征的提取和量化成为一项艰巨任务，尤其是在处理不同诗人的个性化表达时。此外，数据集的构建还需要克服语言资源的稀缺性，特别是在孟加拉语这种资源相对匮乏的语言环境中。这些挑战不仅影响了数据集的构建过程，也为后续的研究提出了更高的要求。

常用场景

经典使用场景

Bengali Poem Dataset为孟加拉语诗歌的文体学研究提供了丰富的文本资源。该数据集包含137位诗人的6070首诗歌，为研究者提供了分析诗歌风格、语言特征和诗人身份识别的宝贵材料。通过这一数据集，学者们能够深入探讨孟加拉语诗歌的文体演变及其文化背景。

衍生相关工作

Bengali Poem Dataset的发布催生了一系列相关研究，特别是在文体学与自然语言处理领域。例如，基于该数据集的诗人身份识别算法、诗歌风格分类模型以及跨文化诗歌比较研究等。这些工作不仅拓展了孟加拉语文学研究的边界，也为其他语言的文体学研究提供了参考。

数据集最近研究