Diwan

github2024-09-20 更新2024-10-03 收录

下载链接：

https://github.com/NoorBayan/Diwan

下载链接

链接失效反馈

官方服务：

资源简介：

Diwan是最大的阿拉伯诗歌分类数据集，包含近50万首诗和超过1500万行诗句。该数据集涵盖了从古代到现代的各种诗歌形式、韵律、风格和主题，并被组织成多个类别，以支持阿拉伯文学、韵律学和自然语言处理的研究。

Diwan is the largest Arabic poetry classification dataset, containing nearly 500,000 poems and over 15 million verses. This dataset covers a wide range of poetic forms, prosody, styles and themes spanning from ancient to modern times, and is structured into multiple categories to support research in Arabic literature, prosody and natural language processing.

创建时间：

2024-09-13

原始信息汇总

Diwan (ديوان): The Largest Classified Dataset of Arabic Poetry

数据集概述

Diwan 是最大的阿拉伯诗歌分类数据集，包含近五十万首诗和超过一千五百万个单独的诗句。该数据集涵盖了从阿拉伯诗歌起源至今的各种诗歌形式、韵律、风格和主题。数据集被结构化为多个类别，便于在阿拉伯文学、韵律学和自然语言处理领域的研究。

数据描述

Diwan 数据集被精心结构化为多个类别，提供了阿拉伯诗歌传统的广泛视角：

关键类别：

诗歌类型：包括传统和现代的诗歌艺术。
艺术形式：涵盖八种传统诗歌形式和四种现代诗歌形式。
语言：诗歌分为古典阿拉伯语（فصيح）或方言阿拉伯语（عامي）。
风格：包括传统风格、自由诗、散文诗和流行诗歌。
历史时期：诗歌按阿拉伯历史的八个不同时期分类。
诗人国籍：诗人按其国家分类，涵盖120个不同的国家。
主要韵律：基于阿拉伯韵律学的16种经典韵律。
详细韵律：包括四个额外的子类别，用于更精确的分类。
诗句类型：分为单行诗（monostich）或双行诗（distich）。
诗歌主题：探索十四个不同的诗歌主题或目的。
诗人信息：包含诗人的详细信息，如姓名和性别。
诗歌内容：每首诗的全文，包括所有单独的诗句。

数据集开发方法

Diwan 的开发遵循了结构化的三阶段方法：

1. 数据收集

从三个主要来源收集数据：在线诗歌库、诗人网站和历史书籍及文章。
使用自定义网络爬虫和提取算法扫描和处理了12个库、56个诗人博客和203个网站。
开发了算法以识别和提取来自各种来源的诗歌文本，确保最小化数据丢失。

2. 数据预处理

合并和清理数据，将分散在211个文件中的数据合并并标准化。
过滤非阿拉伯语内容，去除外来字符和不必要的符号，如音标和延长标记。
数据转换，确保数据集的一致性和结构。

3. 语料库标注

参考了七个权威的阿拉伯韵律学来源，并咨询了两位阿拉伯诗歌专家。
开发了自定义算法以自动化标注过程，确保数据集的一致性和丰富性。

当前发布信息

总诗歌数：近40万首诗
总诗句数：超过1400万句

未来更新

总诗歌数：近50万首诗
总诗句数：超过1500万句

数据集使用

Diwan 数据集可用于多种研究目的：

韵律识别：检测阿拉伯诗歌的韵律。
主题分类：按主题或目的自动分类诗歌。
诗歌生成：训练模型生成阿拉伯诗歌。
抄袭检测：使用数据集识别重复或抄袭的内容。
多标签分类：探索诗歌如何同时属于多个类别。

许可证

该项目基于 MIT 许可证。

搜集汇总

数据集介绍

构建方式

Diwan数据集的构建基于对阿拉伯诗歌的广泛收集与细致分类。该数据集汇集了近五十万首诗歌和超过一千五百万个诗句，涵盖了从阿拉伯诗歌起源至今的各个时期。数据来源包括网络档案、诗人网站和历史书籍，确保了数据的全面性和多样性。通过将诗歌按体裁、风格、语言、韵律、时期和国家等特征进行详细分类，Diwan为研究阿拉伯文学、韵律学和自然语言处理提供了丰富的资源。

特点

Diwan数据集以其庞大的规模和详尽的分类著称，是迄今为止最大的阿拉伯诗歌分类数据集。其特点在于不仅包含了丰富的诗歌内容，还提供了多维度的分类标签，如体裁、韵律、风格和主题等，使得研究者能够进行深入的分析和应用。此外，数据集的结构化设计使得搜索和检索变得高效便捷，极大地促进了阿拉伯诗歌相关研究的发展。

使用方法

Diwan数据集适用于多种研究任务，包括韵律识别、自动诗歌生成、主题分类和抄袭检测等。研究者可以通过Google Colab访问交互式笔记本，轻松探索数据集的详细信息和功能。使用时，首先运行初始单元加载必要的文件和库，然后通过下拉菜单选择不同的诗歌类别进行实验。左侧主菜单还提供了额外的功能选项，进一步增强了数据集的可用性和研究价值。

背景与挑战

背景概述

Diwan数据集，作为阿拉伯诗歌的最大分类数据集，包含了近50万首诗和超过1500万句诗句，涵盖了从阿拉伯诗歌起源至今的广泛诗体、韵律、风格和主题。该数据集由多个研究人员和机构共同开发，旨在为阿拉伯文学、韵律学和自然语言处理领域的研究提供丰富的资源。Diwan不仅收录了来自网络档案、诗人网站和历史书籍的诗歌，还通过详细的分类系统，如诗体、韵律、风格、主题等，为研究者提供了结构化的搜索和分析工具。该数据集的创建，极大地推动了阿拉伯诗歌在现代科技环境下的研究与应用，尤其在韵律识别、自动诗歌生成、主题分类和抄袭检测等方面展现了其独特的价值。

当前挑战

尽管Diwan数据集在阿拉伯诗歌研究中具有重要地位，但其构建和应用过程中仍面临诸多挑战。首先，数据集的庞大规模和多样性要求高效的分类和索引技术，以确保数据的准确性和可用性。其次，阿拉伯诗歌的复杂韵律和多变风格增加了自动分析和处理的难度，特别是在韵律识别和主题分类方面。此外，数据集的持续扩展和更新需要不断整合新的诗歌资源，并进行精细的分类和校验。最后，如何在保持数据集开放性的同时，确保其使用的合法性和道德性，也是当前亟需解决的问题。

常用场景

经典使用场景

Diwan数据集的经典使用场景主要集中在阿拉伯诗歌的自动分析与生成领域。研究者可以利用该数据集进行诗歌韵律识别、主题分类以及自动诗歌生成等任务。通过深入挖掘数据集中的丰富分类信息，学者们能够开发出更为精准的阿拉伯诗歌分析工具，从而推动阿拉伯文学与语言学研究的发展。

衍生相关工作

Diwan数据集的发布催生了多项相关研究工作，特别是在阿拉伯语自然语言处理和文学分析领域。研究者们基于该数据集开发了多种诗歌生成模型、韵律识别算法和主题分类系统。此外，Diwan还激发了跨学科的研究兴趣，促进了文学、语言学与计算机科学的交叉融合，推动了学术界对阿拉伯诗歌的深入探索。

数据集最近研究