LK-Hadith-Corpus

github2024-05-02 更新2024-05-31 收录

下载链接：

https://github.com/ShathaTm/LK-Hadith-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Leeds大学和King Saud大学合作创建的Hadith语料库，包含39,038条注释的Hadith，涵盖超过1000万词条，是英语和阿拉伯语双语平行语料库。

The Hadith corpus, a collaborative effort between the University of Leeds and King Saud University, comprises 39,038 annotated Hadiths, encompassing over 10 million entries. This bilingual parallel corpus is available in both English and Arabic.

创建时间：

2020-07-14

原始信息汇总

数据集概述

名称: LK-Hadith-Corpus
合作机构: Leeds University 和 King Saud University
类型: 双语平行语料库，包含英语和阿拉伯语的伊斯兰圣训
来源: 从六大权威圣训书中提取
规模: 包含39,038条注释圣训，总计超过1000万词
结构: 每个圣训的组成部分被提取并分配到特定列，包括章节号、章节名称（英/阿）、节号、节名称（英/阿）、圣训编号、圣训内容（英/阿）、传承链（英/阿）、主体文本（英/阿）、阿拉伯语注释、评分（英/阿）

使用指南

文件查看: 建议使用Mac上的Numbers应用或Windows上的Google Sheets，避免使用Excel以保持数据结构正确
信息提取: 提供starter.py代码用于从LK Hadith corpus中提取信息

引用要求

若使用此数据集，请引用以下论文：
- Altammami, S., Atwell, E., and Alsalka. The Arabic–English Parallel Corpus of Authentic Hadith. In: International Journal on Islamic Applications in Computer Science And Technology - IJASAT. International Conference on Islamic Applications in Computer Science and Technologies - IMAN 2019, 27-28 Dec 2019.

数据集质量

黄金标准: Bukhari文件夹经过人工检查，被视为该语料库的黄金标准
自动标注: 其他书籍（文件夹）使用圣训分割工具自动标注，分割传承链和主体文本的准确率为92%
进一步信息: 关于自动标注的详细信息，请参考Altammami, S., Atwell, E., & Alsalka, A. (2020) Constructing a Bilingual Hadith Corpus Using a Segmentation Tool. Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020).

搜集汇总

数据集介绍

构建方式

LK-Hadith-Corpus数据集的构建基于六部伊斯兰教圣训经典，通过双语平行语料库的形式呈现，涵盖了英阿两种语言的圣训文本。数据集中的39,038条圣训经过细致的标注，每条圣训的各个组成部分，如章节编号、章节名称、圣训编号、圣训文本、引述链（Isnad）、正文（Matn）以及评注和等级，均被分配到特定的列中。特别地，布哈里圣训集（Bukhari）经过人工校验，被视为该语料库的黄金标准，而其他书籍的圣训则是通过自动化的圣训分割工具进行标注，该工具在分割引述链和正文方面达到了92%的准确率。

特点

该数据集的显著特点在于其双语平行结构，不仅提供了英阿两种语言的圣训文本，还详细标注了每条圣训的各个组成部分，便于研究者进行深入的语言学和宗教研究。此外，数据集的构建过程中采用了自动化工具与人工校验相结合的方式，确保了数据的高质量和可靠性。布哈里圣训集作为黄金标准，进一步提升了数据集的权威性。

使用方法

使用LK-Hadith-Corpus数据集时，建议避免使用Excel打开CSV文件，因其可能无法正确显示结构。推荐使用Mac上的Numbers应用或Windows上的Google Sheets。此外，数据集提供了starter.py代码，便于用户提取特定列的信息。在使用该数据集进行研究时，需引用相关文献，以确保学术诚信。

背景与挑战

背景概述

LK-Hadith-Corpus是由利兹大学和沙特国王大学联合创建的一个双语平行语料库，专注于伊斯兰圣训的英阿双语对照。该数据集包含了从六大正典圣训书中提取的39,038条注释圣训，总计超过1000万词。其核心研究问题在于如何高效且准确地构建一个双语圣训语料库，以服务于圣训学及相关领域的研究。该数据集的创建不仅为圣训学的数字化研究提供了丰富的资源，还为跨语言文本分析、自然语言处理等领域提供了宝贵的数据支持。

当前挑战

LK-Hadith-Corpus在构建过程中面临了多项挑战。首先，圣训文本的复杂结构和多层次的语义信息使得自动分段和标注变得尤为困难，尽管使用了92%准确率的自动分段工具，但仍需人工校对以确保质量。其次，双语对照的准确性要求极高，尤其是在不同语言之间的语义对齐和翻译一致性方面。此外，数据集的规模庞大，如何高效地存储、检索和管理这些数据也是一个技术挑战。最后，确保数据集的开放性和可访问性，同时维护其学术严谨性和宗教敏感性，也是该数据集面临的重要挑战。

常用场景

经典使用场景

LK-Hadith-Corpus 数据集的经典使用场景主要集中在伊斯兰教法和圣训研究领域。该数据集的双语平行语料库（英语-阿拉伯语）为研究者提供了丰富的资源，用于分析和比较不同语言版本下的圣训内容。研究者可以利用该数据集进行语言学分析、文本对齐、以及跨语言信息检索，从而深入探讨圣训的语义和结构特征。

衍生相关工作

基于 LK-Hadith-Corpus 数据集，研究者们已经开展了一系列相关工作，包括开发自动化的圣训分段工具、构建跨语言的圣训检索系统，以及进行多语言文本对齐研究。这些工作不仅推动了圣训研究的数字化进程，还为其他领域的双语语料库构建和应用提供了宝贵的经验和方法。

数据集最近研究