Amthāl Corpus

github2025-09-13 更新2025-09-21 收录

下载链接：

https://github.com/NoorBayan/Amthal

下载链接

链接失效反馈

官方服务：

资源简介：

Amthāl语料库是一个专注于分析古兰经中修辞意象概念网络的数据集。每个数据行代表从古兰经文本中提取和注释的一个修辞实例，包含识别定位、修辞分类、概念抽象、分析上下文和注释质量等多个维度的字段标注。该数据集旨在为研究古兰经修辞意象提供透明、一致和可重复的分析框架。

The Amthāl Corpus is a dataset dedicated to analyzing the conceptual network of rhetorical imagery in the Quran. Each data row represents a rhetorical instance extracted and annotated from the Quranic text, with field annotations covering multiple dimensions including identification and localization, rhetorical classification, conceptual abstraction, analytical context, and annotation quality. This dataset aims to provide a transparent, consistent, and reproducible analytical framework for research on Quranic rhetorical imagery.

创建时间：

2025-09-13

原始信息汇总

Amthāl 数据集概述

数据集简介

Amthāl 语料库是一个专注于分析《古兰经》修辞意象概念网络的数据集。每条记录代表从《古兰经》文本中提取和标注的一个修辞实例（مثيل بلاغي）。

数据字段说明

1. 识别与定位字段

Sura_No: 苏拉（章节）的数字标识符，取值范围为1-114的整数
Aya_No: 苏拉内经文的数字标识符
Revelation_Phase: 基于历史背景的经文分类，取值为"Makki"或"Madani"

2. 提取与修辞分类字段

Snippet: 包含意象的直接文本证据（逐字短语），为阿拉伯文本或NA
Keywords: 来自片段及其上下文的关键词列表，用于计算分析，为逗号分隔列表或NA
Figure_Type: 实例的修辞类别，包括：تشبيه (Simile)、استعارة (Metaphor)、كناية (Metonymy)、مجاز لغوي (Figurative Expression)

3. 概念抽象字段

Dominant_Concept: 作为概念网络中节点的核心概念，提供统一的抽象类别，为受控阿拉伯语词汇或NA
Core_Concept_Pair: 指定认知投射的源-目标概念映射，为阿拉伯语短语（source/target形式）或NA

4. 分析与上下文字段

Rhetorical_Function: 图像在上下文中的语用功能，包括：وعد (Promise)、وعيد (Threat)、حجاج (Argument)、تقريب (Illustration)、تعظيم (Glorification)、امتنان (Gratitude)
Valence: 意象的情感或语义极性，取值为Positive、Negative、Neutral
Dominance_Score: 衡量意象在经文中中心性的定量尺度，为1（边缘）到5（中心）的整数
Abstraction_Level: 图像源域的性质，取值为Tangible或Abstract
Intra_Verse_Relation: 与同一经文中其他图像的关系，取值为Contrast、Complement、Sequence、None

5. 元数据与标注质量字段

Hierarchy: 区分经文内的主要和次要图像，取值为Primary、Secondary、NA
Ambiguity_Flag: 标注者对解释意象的信心水平，取值为Clear、Ambiguous、NA

技术说明

数据集格式为TSV（制表符分隔值）
使用UTF-8编码
某些字段在不适用时取值为NA

使用示例

可通过Python的pandas库加载数据集： python import pandas as pd df = pd.read_csv("Amthal_Corpus.tsv", sep=" ", encoding="utf-8")

数据来源

https://github.com/NoorBayan/Amthal

搜集汇总

数据集介绍

构建方式

在伊斯兰修辞学研究领域，Amthāl Corpus通过系统化标注《古兰经》文本中的修辞实例构建而成。该数据集采用多维度注释框架，从经文章节定位、启示阶段分类到修辞类型识别，逐层解构经文中的隐喻、明喻等修辞手法。标注过程严格遵循语言学规范，通过人工专家标注与交叉验证确保每个修辞实例的准确性和一致性，并采用标准化编码记录概念映射和情感极性等深层语义特征。

特点

该数据集的核心特点在于其多层次的概念抽象体系，不仅包含修辞类型的表层分类，更通过主导概念和核心概念对字段揭示修辞背后的认知映射关系。情感效价、支配性评分和抽象层级等量化维度为 computational rhetoric 研究提供结构化支持。数据集采用阿拉伯语原生标注，完整保留经文语境信息，且通过歧义标注和层级区分确保学术研究的严谨性与可复现性。

使用方法

研究者可通过加载TSV格式的数据文件，利用pandas等工具进行跨字段的关联分析。该数据集支持基于修辞类型、情感极性或概念网络的筛选与统计，适用于计算语言学、认知诗学及伊斯兰修辞学的定量研究。通过核心概念对字段可构建概念映射网络，而支配性评分与经文章节定位则支持修辞模式的历时性分析。数据集预留的NA值处理机制确保了分析过程的灵活性。

背景与挑战

背景概述

Amthāl Corpus由古兰经修辞研究领域的学者构建，专注于解析伊斯兰圣典中的修辞意象网络。该数据集系统收录了古兰经各章节中蕴含的修辞实例，通过多维标注体系揭示经文中的隐喻体系与概念映射关系。其构建体现了计算语言学与古典文献研究的深度融合，为伊斯兰文本的数字化分析提供了重要基础，推动了宗教文本计算分析领域的方法创新。

当前挑战

该数据集核心挑战在于古兰经修辞现象的多义性解析，需准确识别隐喻、转喻等修辞类型的语义边界。构建过程中面临阿拉伯古典文献的语境敏感性挑战，要求标注者兼具语言学专业知识和宗教文本解读能力。此外，概念抽象层的建立需要平衡语言学规范与认知语言学理论，确保源域-目标域映射的系统性与可计算性。

常用场景

经典使用场景

在阿拉伯语修辞学研究中，Amthāl Corpus作为首个系统化标注《古兰经》修辞意象的语料库，为计算语言学与伊斯兰经注学的交叉研究提供了标准数据集。研究者通过其精细的修辞类型标注（如隐喻、明喻、借代）和概念抽象字段，能够量化分析经文中的意象网络分布模式，揭示文本深层的认知结构与美学特征。

衍生相关工作

基于该数据集衍生的经典研究包括《古兰经》隐喻计算模型构建、修辞网络的图结构分析，以及跨宗教文本修辞对比研究。例如通过概念映射关系挖掘经文中的认知范式，或结合启示阶段（Revelation_Phase）字段开展历时性修辞演变分析，推动了数字人文在宗教文本研究中的方法论创新。

数据集最近研究