five

riotu-lab/Quran-Tafseers

收藏
Hugging Face2024-01-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/riotu-lab/Quran-Tafseers
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由Prince Sultan University - Riotu Lab开发,主要用于自然语言处理任务,特别是理解古典阿拉伯语和宗教文本,包括文本分析、语言建模和主题研究。主要用户为自然语言处理、宗教研究和AI领域的研究人员和开发者,特别是那些处理古典阿拉伯文本的人员。数据集格式为Json,包含超过57K行,语言为阿拉伯语。数据集结构包括Surah编号、Ayah编号和Tafseer来源的字典映射。

该数据集由Prince Sultan University - Riotu Lab开发,主要用于自然语言处理任务,特别是理解古典阿拉伯语和宗教文本,包括文本分析、语言建模和主题研究。主要用户为自然语言处理、宗教研究和AI领域的研究人员和开发者,特别是那些处理古典阿拉伯文本的人员。数据集格式为Json,包含超过57K行,语言为阿拉伯语。数据集结构包括Surah编号、Ayah编号和Tafseer来源的字典映射。
提供机构:
riotu-lab
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 问答
  • 语言: 阿拉伯语
  • 美观名称: Tibyan For Holy Quran
  • 大小类别: 10K<n<100K

模型详情

  • 开发者: Prince Sultan University - Riotu Lab
  • 主要用途: 自然语言处理任务,特别是理解和分析古典阿拉伯语和宗教文本,包括文本分析、语言建模和主题研究。
  • 主要用户: 自然语言处理、宗教研究和AI领域的研究人员和开发者,特别是那些处理古典阿拉伯语文本的人。
  • 不适用场景: 不应用于可能导致伦理问题的预测建模,如基于宗教文本的监视或个人画像。

数据集规格

  • 格式: Json
  • 数据集大小: 包含超过57K行

数据集结构

  • 字段:
    • sura_number: 整数,代表古兰经中的苏拉编号。
    • Aya_number: 整数,代表苏拉中的阿亚编号。
    • tafsers: 字典,映射每个阿亚的解释来源及其文本。
      • 解释名称包括:
        1. "التفسير الميسر"
        2. "تفسير الجلالين"
        3. "تفسير ابن كثير"
        4. "تفسير الوسيط لطنطاوي"
        5. "تفسير البغوي"
        6. "تفسير القرطبي"
        7. "تفسير الطبري"
搜集汇总
数据集介绍
main_image_url
构建方式
在古典阿拉伯语文本处理领域,该数据集通过系统化整合多部权威《古兰经》注释(Tafseer)文献构建而成。其构建过程以《古兰经》的章节(Surah)和经文(Ayah)为基本结构单元,针对每一节经文,从七部经典注释典籍中提取对应的解释文本,包括《泰伯里经注》、《古尔图比经注》等。最终形成超过5.7万条结构化数据条目,每条数据均包含经文定位信息与多源注释文本的映射关系,以JSON格式系统存储,确保了数据的完整性与可追溯性。
使用方法
该数据集主要服务于自然语言处理与宗教文本计算研究。研究者可将其用于古典阿拉伯语的语义理解、语言模型微调、主题建模以及跨注释源的比较分析等任务。在使用时,用户可通过`sura_number`和`aya_number`字段精确定位目标经文,并调用`tafseers`字典中对应的注释源文本进行深入分析。需注意,其应用应聚焦于学术研究与技术开发,避免用于可能引发伦理争议的预测性建模。数据以JSON格式提供,便于集成至各类数据处理流程中。
背景与挑战
背景概述
在自然语言处理与古典阿拉伯语研究的交汇领域,Prince Sultan University的Riotu实验室于近年推出了Quran-Tafseers数据集。该数据集聚焦于伊斯兰经典《古兰经》的经注文本,旨在为文本分析、语言建模及主题研究提供结构化资源。其核心研究问题在于如何利用计算语言学方法,深入解析古典阿拉伯语宗教文献的语义内涵与注释传统。通过整合七种权威经注源,该数据集不仅促进了宗教文本的数字化研究,也为跨文化自然语言理解任务奠定了重要基础,对相关学术领域产生了积极影响。
当前挑战
该数据集致力于应对古典阿拉伯语宗教文本的自动理解与问答任务,其核心挑战在于古典阿拉伯语的语法复杂性、词汇多义性以及宗教语境特有的语义微妙差异。在构建过程中,研究人员面临多重困难:经注来源的数字化版本稀缺且格式不一,需进行大量文本清洗与对齐工作;不同经注学派间的解释差异要求细致的标注与整合;同时,确保数据处理的宗教敏感性与伦理合规性亦成为关键考量。这些挑战共同塑造了数据集的构建轨迹与应用边界。
常用场景
经典使用场景
在自然语言处理领域,特别是针对古典阿拉伯语和宗教文本的深度理解,该数据集为研究者提供了丰富的注释资源。通过整合七种权威的《古兰经》注释(Tafseer),它支持对经文进行多视角的语义分析和语言建模,常用于训练和评估问答系统,以探索文本的深层含义和上下文关联。
解决学术问题
该数据集有效解决了古典阿拉伯语处理中的语义歧义和文化背景缺失问题,为宗教文本的自动化理解提供了结构化数据基础。它促进了跨注释源的比较研究,助力于挖掘文本的主题一致性和解释多样性,从而推动计算语言学与数字人文的交叉学科进展。
实际应用
在实际应用中,该数据集可用于开发智能宗教教育工具,如基于《古兰经》的自动问答系统和注释检索平台。它还能辅助语言学习应用,帮助非阿拉伯语使用者理解经文含义,并为宗教研究机构提供数据支持,以数字化方式保存和传播文化遗产。
数据集最近研究
最新研究方向
在古典阿拉伯语自然语言处理领域,Quran-Tafseers数据集为宗教文本的深度语义理解提供了关键资源。前沿研究聚焦于利用其丰富的经注(Tafseer)注释,开发跨源对齐与多视角解释融合模型,以增强对古兰经经文的多维度分析。热点事件包括结合大语言模型进行古典阿拉伯语的上下文生成与问答系统优化,推动伊斯兰数字人文研究的智能化发展。该数据集的应用不仅促进了古典语言计算语言学的发展,也为跨文化宗教文本的机器理解奠定了数据基础,具有重要的学术与文化意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作