ArabicPoetryThemeClustering

Hugging Face2025-12-17 更新2025-12-18 收录

下载链接：

https://huggingface.co/datasets/PoetryMTEB/ArabicPoetryThemeClustering

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个阿拉伯诗歌主题聚类基准，用于评估阿拉伯语表示模型在无监督诗歌聚类任务上的性能。每条记录包含一首阿拉伯语诗歌及其所属的主题聚类标签。数据集基于alwalid54321/Arabic_Poems进行处理，原始数据来自arbml/ashaar的al-diwan子集。数据集包含8,875首诗歌，分为18个主题，每个诗歌有唯一的ID、标题、内容、主题、主题编码、诗人姓名、诗人简介、诗人所属时代等字段。

创建时间：

2025-12-12

原始信息汇总

Arabic Poetry Theme Clustering Benchmark 数据集概述

数据集基本信息

数据集名称: Arabic Poetry Theme Clustering Benchmark
主要用途: 评估阿拉伯语表示模型在无监督诗歌聚类任务上的性能。
数据总量: 8,875 首诗歌。
主题数量: 18 个。
数据集大小: 7,656,400 字节。
文件格式: Parquet。
数据分割: 仅包含一个 test 分割。

数据来源与处理

原始来源: 基于 alwalid54321/Arabic_Poems 数据集进行处理，其原始数据来自 arbml/ashaar 的 al-diwan 子集。
处理步骤:
1. 删除原始的 Unnamed: 0 索引列。
2. 为每个诗歌主题创建编码（T1, T2, T3...）。
3. 标准化列名。
4. 为每条记录添加唯一ID。

数据字段说明

字段名	数据类型	描述
`id`	string	诗歌唯一标识符 (格式: poem_00001)
`title`	string	诗歌标题
`text`	string	诗歌内容 (诗句文本)
`theme`	string	诗歌主题 (原始标签)
`theme_code`	string	主题编码 (T1, T2, T3...)
`author`	string	诗人姓名
`author_desc`	string	诗人简介
`era`	string	诗人所属时代
`meter`	string	诗歌韵律
`language`	string	诗歌语言 (固定为"ar" - 阿拉伯语)
`score`	string	相似度得分 (用于聚类评估)

主题分布统计

主题	诗歌数量
قصيدة قصيره	3438
قصيدة عامه	2507
قصيدة مدح	728
قصيدة رومنسيه	531
قصيدة حزينه	428
قصيدة عتاب	270
قصيدة شوق	200
قصيدة هجاء	199
قصيدة غزل	147
قصيدة رثاء	120
قصيدة دينية	117
قصيدة فراق	89
قصيدة ذم	62
قصيدة وطنيه	32
قصيدة اعتذار	3
قصيدة المعلقات	2
قصيدة سياسية	1
قصيدة الاناشيد	1

主题编码映射（部分示例）

编码	主题
T1	قصيدة دينية
T2	قصيدة ذم
T3	قصيدة عامه

数据示例

id	title	theme	theme_code	author	era
poem_00001	أصبح الملك للذي فطر الخلق	قصيدة دينية	T1	الامير منجك باش	العصر العث
poem_00002	من أي مولى ارتجي	قصيدة دينية	T1	الامير منجك باش	العصر العث
poem_00003	العبد عبدك يا من أنت سيده	قصيدة ذم	T2	الامير منجك باش	العصر العث
poem_00004	لو كنت أطمع بالمنام توهما	قصيدة عامه	T3	الامير منجك باش	العصر العث
poem_00005	يعد علي أنفاسي ذنوبا	قصيدة عامه	T3	الامير منجك باش	العصر العث

搜集汇总

数据集介绍

构建方式

阿拉伯诗歌主题聚类基准数据集的构建源于对阿拉伯语文学遗产的系统性整理与数字化处理。该数据集以alwalid54321/Arabic_Poems为原始基础，其源头可追溯至arbml/ashaar的al-diwan子集，涵盖了丰富的古典与现代阿拉伯诗歌作品。在数据处理过程中，研究团队移除了冗余的索引列，为每个诗歌主题创建了标准化的编码体系，并统一了字段命名规范。每条诗歌记录均被赋予唯一的标识符，确保了数据的完整性与可追溯性，最终形成了包含8,875首诗歌、涵盖18个主题类别的结构化数据集。

特点

该数据集在阿拉伯语自然语言处理领域展现出鲜明的特色，其核心在于提供了诗歌文本与主题标签的对应关系，为无监督聚类任务奠定了坚实基础。数据集覆盖了从宗教、浪漫、哀伤到讽刺等多种诗歌主题，反映了阿拉伯诗歌文化的多元性与深度。每条记录不仅包含诗歌的文本内容与标题，还附带了诗人姓名、时代背景及韵律信息，这些丰富的元数据为跨时代的诗歌风格分析提供了可能。主题分布呈现出自然的长尾特性，其中短诗与普通诗歌占据较大比例，而政治诗与颂歌等类别则较为稀少，这种分布真实体现了阿拉伯诗歌创作的现实格局。

使用方法

在应用层面，该数据集主要服务于阿拉伯语表示模型的评估与优化，特别是在无监督诗歌聚类任务中。研究者可利用诗歌的文本字段与主题编码，训练或测试模型对阿拉伯诗歌语义特征的捕捉能力。数据集的标准Parquet格式确保了高效的数据读取与处理，而唯一的ID设计则方便了实验的可重复性。在实际使用中，建议结合诗歌的元数据如时代与作者信息，进行多维度聚类分析，以探索诗歌主题与历史背景之间的潜在关联。该基准为跨语言诗歌计算研究提供了重要的数据支撑，推动了阿拉伯文化遗产的数字化进程。

背景与挑战

背景概述

阿拉伯诗歌作为世界文学遗产的重要组成部分，其主题丰富、情感深邃，承载着阿拉伯民族的历史记忆与文化认同。随着计算语言学与数字人文研究的兴起，对阿拉伯诗歌进行系统性分析与主题聚类成为一项关键任务。ArabicPoetryThemeClustering数据集应运而生，由研究团队基于alwalid54321/Arabic_Poems与arbml/ashaar等开源资源构建，旨在为阿拉伯语表示模型提供一个无监督诗歌主题聚类的评估基准。该数据集涵盖了从古典到近现代共8,875首诗歌，划分为18个主题类别，如宗教诗、浪漫诗、哀悼诗等，不仅为自然语言处理领域提供了珍贵的语料资源，亦为文学研究与文化计算开辟了新的路径。

当前挑战

在阿拉伯诗歌主题聚类任务中，首要挑战在于诗歌语言的复杂性与多义性，古典阿拉伯语富含隐喻、象征与历史典故，使得主题边界模糊，自动聚类算法难以准确捕捉细微的情感与语义差异。其次，数据构建过程面临标注一致性的难题，诗歌主题往往具有主观阐释空间，不同标注者可能对同一作品产生分歧，影响数据集的可靠性。此外，数据集中主题分布极不均衡，部分类别如政治诗仅有单一样本，而通用诗则占据较大比例，这种偏斜分布对聚类模型的泛化能力提出了严峻考验，可能导致模型过度拟合多数类而忽略稀有主题。

常用场景

经典使用场景

在阿拉伯语自然语言处理领域，该数据集为无监督诗歌聚类任务提供了标准化的评估基准。研究者通常利用其丰富的诗歌文本和主题标签，训练和测试表示学习模型，以探索阿拉伯诗歌在语义空间中的分布规律。通过聚类分析，能够揭示不同主题诗歌之间的内在关联，为跨时代的文学风格比较奠定基础。

解决学术问题

该数据集有效解决了阿拉伯语文学计算中主题分类的标注稀缺问题，为无监督学习提供了可靠的真实世界语料。其意义在于推动了跨语言诗歌分析的研究进展，使得基于深度学习的主题建模方法得以在低资源语言环境中验证。这一工作促进了计算语言学与数字人文的交叉融合，为文化遗产的数字化保存提供了技术支撑。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于BERT的阿拉伯诗歌嵌入表示优化、跨语言诗歌主题迁移学习框架，以及结合诗人时代信息的动态主题建模方法。这些工作不仅提升了诗歌聚类的准确性，还拓展了计算诗学在韵律分析与情感挖掘方面的应用边界，形成了活跃的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集