five

QuranMorph

收藏
arXiv2025-06-23 更新2025-06-28 收录
下载链接:
https://sina.birzeit.edu/quran
下载链接
链接失效反馈
官方服务:
资源简介:
QuranMorph数据集是一个形态学标注的《古兰经》语料库,包含77,429个词。该语料库由伯宰特大学的研究团队创建,每个词都经过三位语言学家手动进行词干化和词性标注。词干化过程使用了Qabas阿拉伯语词典数据库中的词干,该数据库与110个词典和2百万个词的语料库相关联。词性标注使用了细粒度的SAMA/Qabas词性标注集,包含了40个标签。QuranMorph语料库是开源的,作为SinaLab资源的一部分公开提供。该数据集旨在解决计算语言学中古典阿拉伯语资源不足的问题,并为阿拉伯语的自然语言处理研究提供支持。

The QuranMorph dataset is a morphologically annotated corpus of the Quran, containing 77,429 words. This corpus was developed by a research team at Birzeit University, where every word has been manually lemmatized and part-of-speech (POS) tagged by three linguists. Lemmatization utilizes lemmas sourced from the Qabas Arabic Lexicon Database, which is associated with 110 dictionaries and a 2-million-word corpus. The POS tagging follows the fine-grained SAMA/Qabas POS tagset, which includes 40 distinct tags. The QuranMorph corpus is open-source and publicly released as part of the SinaLab resources. This dataset is designed to address the scarcity of Classical Arabic resources in computational linguistics and support natural language processing (NLP) research related to Arabic.
提供机构:
伯宰特大学
创建时间:
2025-06-23
搜集汇总
数据集介绍
main_image_url
构建方式
QuranMorph数据集的构建过程体现了对古典阿拉伯语形态学特征的深度解析。研究团队采用三层专家标注机制,由三名专业语言学家通过Tawseem网络标注工具对77,429个古兰经词汇进行人工词形还原和词性标注。标注过程结合了Qabas阿拉伯语词典数据库的60,000个词条资源,并采用包含40种标签的SAMA/Qabas细粒度标注体系。为确保标注质量,团队开发了集成Alma形态分析器的智能标注系统,平均每个词汇消耗约18.6秒的专业标注时间,总工时达400小时。
特点
该数据集的核心价值在于其独特的跨资源兼容性设计。通过采用与110部阿拉伯语词典关联的Qabas词条系统,QuranMorph实现了与200万标记的现代标准阿拉伯语及方言语料库的无缝对接。数据集中包含19,009个独特词汇形式,涵盖4,616个基本词根,其中名词词根3,057个、动词词根1,479个。特别值得注意的是,该数据集保留了古兰经特有的正字法特征,包括历史拼写变体和特殊变音符号,为研究古典阿拉伯语形态演变提供了珍贵样本。
使用方法
研究者可通过SinaLab平台获取该数据集的开放访问权限。使用时应关注其基于章节-经文-词汇的三级定位系统(如1:1:1格式),这种结构支持与既有古兰经语料库的精确对齐。对于自然语言处理任务,建议利用其细粒度形态标签开发领域特定的分词器和词形还原器。在语言学研究中,可通过Qabas接口追溯每个词条在110部词典中的语义网络,特别适用于古典阿拉伯语与现代变体的对比研究。跨领域应用时需注意古兰经特有的语义场差异,建议结合经注文献(tafsir)进行语义消歧。
背景与挑战
背景概述
QuranMorph是由Birzeit大学的Diyam Akra、Tymaa Hammouda和Mustafa Jarrar于2025年推出的古兰经形态标注语料库,包含77,429个经过人工词形还原和词性标注的词汇单元。该语料库的创新性体现在其采用了与Qabas词典数据库相衔接的词形还原体系,以及包含40个标签的细粒度SAMA/Qabas词性标注集。作为古典阿拉伯语研究领域的重要资源,QuranMorph填补了现有古兰经语料库(如Dukes和Habash于2010年开发的Quranic Arabic Corpus)在跨资源兼容性方面的空白,其标注体系设计实现了与现代标准阿拉伯语(MSA)及多种方言语料库的互操作性,为阿拉伯语计算语言学研究提供了关键基础设施。
当前挑战
该数据集面临的核心领域挑战在于古典阿拉伯语特有的语言复杂性:古兰经正字法与标准阿拉伯语的拼写差异导致标注歧义,经文词汇的多义性需要依赖经注学(tafsir)进行语义消歧,同一词汇在不同语境中可能对应不同词元(如'drb'可表示'举例'或'旅行')。在构建过程中,研究团队需解决三大技术难题:处理古兰经独特的连写字符和变音符号系统,建立与110部词典关联的跨时代词形还原体系,以及开发能协调传统语法标签与现代计算语言学需求的标注方案。这些挑战通过结合专家标注与Tawseem智能标注工具的混合工作流程得以克服,但标注过程中仍需约400人工小时进行质量把控。
常用场景
经典使用场景
QuranMorph数据集作为古典阿拉伯语(尤其是《古兰经》文本)的首个形态学标注语料库,其经典使用场景集中在计算语言学与阿拉伯语数字人文领域。该数据集通过精细的词形还原(lemmatization)和40类词性标注体系,为研究者提供了分析《古兰经》复杂形态特征的标准化工具。在跨时代阿拉伯语变体对比研究中,该语料库与Qabas词典数据库的110部词典关联特性,使得古典阿拉伯语与现代标准阿拉伯语(MSA)、方言阿拉伯语的共时比较成为可能。
实际应用
在实际应用层面,QuranMorph支撑了多项关键技术开发。其标注数据被集成至Tawseem标注平台和ALMA形态分析工具,辅助宗教文本数字化工程。教育领域利用该库开发古兰经语言学习系统,通过词例关联展示不同时代阿拉伯语的形态差异。在文化遗产保护方面,语料库与Qabas的跨词典链接功能,为阿拉伯语词源学研究提供了可追溯的数字化基础设施。
衍生相关工作
该数据集衍生出阿拉伯语多维度研究体系。在资源构建方面,推动形成了包括巴勒斯坦方言库Curras、黎巴嫩语库Baladi在内的方言语料网络。方法论上启发了SALMA词义标注框架和ArabGlossBERT等预训练模型。其标注标准更被扩展至利比亚、也门等方言的Lisan项目中,形成覆盖10种阿拉伯语变体的2,000万标记资源网络,确立了基于Qabas的阿拉伯语数字人文研究范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作