Miraya

github2025-09-04 更新2025-09-16 收录

下载链接：

https://github.com/NoorBayan/Miraya

下载链接

链接失效反馈

官方服务：

资源简介：

Miraya是迄今为止最大的经过严格验证的阿拉伯诗歌计算语料库，结合了大规模数据化和女性主义批判方法，研究性别、权力和文化记忆在阿拉伯诗歌传统中的编码方式。该语料库涵盖16个主要类别的超过1400万节诗句，并附有丰富的元数据注释（体裁、韵律、格律、历史时期、地理和诗人人口统计信息）。其独特贡献在于将档案偏见视为数据而非限制，突出阿拉伯诗歌遗产作为性别技术的作用。

Miraya is the largest rigorously validated computational corpus of Arabic poetry to date. It combines large-scale digitization and feminist critical methodologies to investigate the encoding of gender, power, and cultural memory within the Arabic poetic tradition. This corpus encompasses over 14 million poetic verses across 16 major categories, accompanied by rich metadata annotations including genre, prosody, meter, historical period, geographic information, and poet demographic information. Its unique contribution lies in framing archival biases as data rather than a limitation, and highlighting the role of Arabic poetic heritage as a technology of gender.

创建时间：

2025-09-04

原始信息汇总

Miraya 数据集概述

概述

Miraya 是迄今为止最大的经过严格验证的阿拉伯诗歌计算语料库。该语料库结合了大规模数据化和女性主义批判方法，用于研究性别、权力和文化记忆在阿拉伯诗歌传统中的编码方式。

规模与范围

包含超过 1400 万节诗歌
涵盖 16 个主要类别

标注信息

语料库标注了丰富的元数据，包括：

体裁
韵律
格律
历史时期
地理信息
诗人人口统计信息

独特贡献

将档案偏见视为数据而非限制，突出阿拉伯诗歌遗产作为性别技术的作用。

搜集汇总

数据集介绍

构建方式

在阿拉伯文学与数字人文交叉领域，Miraya数据集的构建融合了批判性档案研究与计算建模方法。研究团队系统收集了跨越不同历史时期与地域的阿拉伯诗歌文本，涵盖超过1400万行诗句，并采用女性主义批判理论框架对文本进行多层标注。每一首诗均标注了体裁、格律、时代背景、地理来源及诗人人口统计学信息，同时将传统档案中的性别偏见转化为可分析的结构化数据，从而重构了诗歌作为性别技术载体的文化记忆。

特点

该数据集的核心特点在于其批判性验证机制与多维注释体系。作为迄今规模最大的阿拉伯诗歌计算语料库，它不仅包含16个主要诗歌类别的高质量文本，更通过女性主义视角解构了权力与性别在诗歌传统中的编码方式。数据集特别强调对历史档案系统性偏见的量化分析，将原本被视为局限的缺失数据转化为研究性别建构机制的关键维度，为计算文学研究提供了兼具广度与深度的新型分析范式。

使用方法

研究者可通过该数据集开展计算诗学与性别研究的跨学科探索。典型应用包括基于格律和时代特征的诗歌风格演化分析，或通过诗人性别与地理分布研究文化权力的空间叙事。数据集支持自然语言处理模型训练，尤其适用于性别隐喻识别、文化记忆计算建模等任务。使用时应结合其批判性注释框架，将算法输出与诗歌社会语境相互印证，从而揭示阿拉伯诗歌传统中隐含的性别政治动态。

背景与挑战

背景概述

阿拉伯诗歌计算分析领域长期面临数据稀缺与系统性偏见问题，Miraya数据集由计算人文研究团队于2023年构建，旨在通过女性主义批判方法论解构诗歌传统中的性别权力结构。该数据集涵盖1400万行诗篇，整合了体裁、格律、历史时期等多维度元数据，其创新性在于将档案偏见转化为分析要素，为阿拉伯文学研究与数字人文交叉领域提供了关键基础设施。

当前挑战

该数据集核心挑战在于解决阿拉伯诗歌性别表征研究的双重困境：既要突破传统文学分析的主观局限性，又需克服计算模型中文化语境消解的问题。构建过程中面临诗歌文本数字化时的方言变异处理、历史文献元数据缺失修复，以及女性诗人作品系统化挖掘等关键技术难题，需通过多学科协作实现计算分析与人文批判的有机融合。

常用场景

经典使用场景

在阿拉伯文学与计算人文交叉领域，Miraya数据集为诗歌文本的量化分析提供了范式。研究者常利用其超过1400万行诗句及多维度元数据，开展诗歌格律模式统计、地域风格演变追踪以及诗人群体特征挖掘，尤其擅长支撑跨世纪阿拉伯诗歌传统的宏观趋势研究。

解决学术问题

该数据集通过融合女性主义批判理论与计算分析方法，系统性解决了阿拉伯诗歌中性别与权力关系难以量化的学术难题。其将档案偏见转化为分析维度的创新思路，为文化记忆研究提供了可计算框架，显著推动了数字人文领域对非西方文本传统的方法论反思。

衍生相关工作

基于Miraya衍生的经典研究包括采用神经网络分析诗歌格律的历时演变、开发基于性别视角的诗人群体网络分析工具，以及构建阿拉伯诗歌隐喻计算模型。这些工作共同推动了计算文学研究范式向非英语语种的扩展，促进了跨学科方法论对话。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集