QuranMetaphor Dataset

github2026-02-02 更新2026-02-05 收录

下载链接：

https://github.com/NoorBayan/QuranMetaphor

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是来自更广泛的Borhan Rhetorical Ontology的任务特定提取。虽然源本体包含细粒度的元数据（例如语用功能、感官模式），但此存储库仅包括论文中建模的三个结构维度，以建立严格的基线：总样本：2,649节。目标标签：1. 类型：显式（Taṣrīḥiyya）与隐式（Makniyya）；2. 起源：主要（Aṣliyya）与派生（Tabʿiyya）；3. 上下文：绝对、候选、隐含。

This dataset is a task-specific extraction from the broader Borhan Rhetorical Ontology. While the source ontology encompasses fine-grained metadata (e.g., pragmatic functions and sensory modalities), this repository only includes the three structural dimensions modeled in the paper to establish a rigorous baseline: Total samples: 2,649 sections. Target labels: 1. Type: Explicit (Taṣrīḥiyya) versus Implicit (Makniyya); 2. Origin: Primary (Aṣliyya) versus Derived (Tabʿiyya); 3. Context: Absolute, Candidate, Implicit.

创建时间：

2026-01-06

原始信息汇总

QuranMetaphor 数据集概述

数据集基本信息

数据集名称: QuranMetaphor
所属项目: 该项目是更广泛的“Borhan项目”（مشروع برهان）的一部分，该项目旨在建立《古兰经》研究中的计算修辞学领域。
核心目标: 专注于使用多任务学习对隐喻进行结构建模，而非简单的隐喻检测。其实现的“Qarina-Aware”机制是更高级应用（如语气分析、讽刺检测和概念网络）的基础“美学感知”层。

数据集内容与规模

数据文件: data/dataset_experiment.csv
数据来源: 该数据集是从全面的 Borhan Rhetorical Ontology 中提取的任务特定子集。
数据规模: 包含 2,649 节经文样本。
标注维度: 包含论文中建模的三个结构维度：
1. 类型: 明确（Taṣrīḥiyya）与隐含（Makniyya）。
2. 起源: 主要（Aṣliyya）与衍生（Tabʿiyya）。
3. 上下文: 绝对、候选、隐含。
数据说明: 原始的扩展元数据（如语用功能、感官模式）未包含在此数据集中，保留用于未来的生成任务。

方法论与模型架构

问题定义: 将隐喻分析定义为一组相互依赖的分类任务，即一个层次化推理问题。
方法: 将修辞约束转化为多任务学习架构。
任务:
1. 类型任务: 区分明确隐喻与隐含隐喻。
2. 起源任务: 区分主要感官隐喻与衍生关联隐喻。
3. 功能上下文任务: 分析隐喻是扩展的、绝对的还是抽象的。
核心架构: 采用硬参数共享方法，并包含一个专门的 Qarīna-Aware Interaction Layer。该层是一种无监督机制，模拟人类通过扫描上下文中的“阻断指示符”来解决歧义的认知过程。
编码器: 使用阿拉伯语编码器（如 MARBERT / CamelBERT）。

许可证

该项目采用 MIT 许可证。详细信息请参阅项目中的 LICENSE 文件。

搜集汇总

数据集介绍

构建方式

在计算修辞学领域，QuranMetaphor数据集的构建源于Borhan项目的修辞本体论。该数据集从广泛的古兰经修辞元数据中提取了2,649节经文，专门聚焦于隐喻分析的结构维度。构建过程遵循多任务学习框架，将隐喻解构为类型、起源和功能上下文三个层次化标签，确保数据与理论模型紧密对齐。这种任务特定的提取方法旨在为隐喻的复杂推理提供严谨基准，同时保留源本体论的学术深度。

使用方法

使用该数据集时，研究人员可借助提供的多任务学习架构进行隐喻分析。模型以阿拉伯语编码器处理经文输入，通过Qarīna感知交互层融合上下文线索，最终输出三个任务的分类结果。数据集适用于训练和评估隐喻理解的层次化推理模型，支持计算语言学与古兰经研究的交叉探索。用户需遵循MIT许可，并可在Colab环境中复现实验，确保研究的可重复性与学术严谨性。

背景与挑战

背景概述

QuranMetaphor数据集诞生于计算修辞学在古兰经研究领域的兴起阶段，作为Borhan项目的重要组成部分，该数据集由NoorBayan研究团队于近年构建，旨在系统解析古兰经文本中的隐喻结构。其核心研究问题聚焦于突破传统自然语言处理模型在修辞感知上的局限，通过多任务学习框架将隐喻分析转化为类型、起源与功能语境的三维层次推断任务。该数据集通过建立首个面向古兰经隐喻的细粒度标注体系，为计算语言学与数字人文的交叉领域提供了可量化的认知本体，推动了古典文本的智能解读从表层语法分析向深层美学感知的范式转变。

当前挑战

在领域问题层面，古兰经隐喻分析面临阿拉伯语修辞结构的特殊性与语义多层性挑战，传统二分类模型难以捕捉隐喻在显隐维度、感官起源及语境功能间的动态关联。构建过程中需克服古典文本标注的高度主观性，研究团队通过融合语言学规则与认知本体论，将修辞学家长期依赖的语境线索（Qarīna）转化为可计算的交互层机制，同时需平衡细粒度标注规模与模型泛化能力，在保留原始修辞复杂性的前提下构建适用于多任务学习的结构化数据集。

常用场景

经典使用场景

在计算修辞学与阿拉伯语自然语言处理领域，QuranMetaphor数据集为《古兰经》隐喻的层次化分析提供了结构化基准。该数据集常用于训练多任务学习模型，以同时识别隐喻的类型、起源与功能语境，从而模拟人类解读经文时依赖上下文线索的认知过程。研究者通过该数据集能够系统探索经文中的修辞结构，为深入理解伊斯兰经典文学的语义复杂性奠定数据基础。

解决学术问题

该数据集致力于解决传统自然语言处理模型在修辞分析中的“语义盲区”问题，尤其针对《古兰经》中隐喻的多维特性。通过提供标注精细的层次化标签，它使算法能够区分显性与隐性隐喻、原始与衍生隐喻，以及不同功能语境，从而将隐喻分析从简单的二元检测提升为基于上下文推理的认知建模。这一工作为计算修辞学建立了可复现的评估框架，推动了经典文本的数字化阐释向更细腻、更符合人文研究逻辑的方向发展。

实际应用

在实际应用中，QuranMetaphor数据集支撑着智能经注系统、跨文化宗教文本分析工具以及阿拉伯语教育资源开发。基于该数据集训练的模型可自动识别经文中的修辞手法，辅助学者快速定位隐喻用例，并为翻译软件提供语境感知的语义消歧能力。此外，该数据集也为伊斯兰数字人文项目提供了核心数据层，使得大规模经文风格分析与概念网络构建成为可能。

数据集最近研究