vera110/tafsir-dataset
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/vera110/tafsir-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从《古兰经》注释(Tafsir)讲座和解释中提取的波斯语文本,旨在训练语言模型以遵循指令和理解宗教文本。数据集包括对《古兰经》经文的详细解释,重点关注概念理解、神学见解和上下文分析。数据以JSONL格式存储,每个样本包含指令、输出、标签、类型、苏拉(章节)、主题和演讲者等信息。
This dataset contains Persian text derived from Quran tafsir (interpretation) lectures and explanations. The data is structured for training language models in instruction-following and religious text understanding tasks. The dataset includes detailed explanations of Quranic verses, focusing on conceptual understanding, theological insights, and contextual analysis.
提供机构:
vera110
搜集汇总
数据集介绍
构建方式
该数据集基于波斯语《古兰经》注释讲座与演讲内容构建,主要源自阿亚图拉·哈梅内伊的讲话。原始语音材料被系统性地转录为文本,并围绕《古兰经》特定章节(如国权章)的经文,提炼出概念阐释、神学洞见与上下文分析。每条数据以JSONL格式组织,包含指令、输出、任务标签、章节、主题及发言人字段,形成了结构化的宗教文本语料。
使用方法
该数据集适用于波斯语大语言模型的指令微调,尤其适合构建《古兰经》问答系统、宗教知识助手与伊斯兰文本摘要应用。研究者可直接使用指令字段作为提示输入,输出字段作为目标响应,进行序列到序列的监督训练。此外,任务标签(如qa)允许针对特定任务类型开展定制化微调或评估实验。
背景与挑战
背景概述
tafsir-dataset是一个专注于波斯语《古兰经》注释(Tafsir)的指令微调数据集,由伊朗宗教领袖哈梅内伊(Ayatollah Khamenei)的演讲和讲座内容构建而成,创建时间约在2023–2024年。该数据集旨在解决波斯语宗教文本理解与生成中的领域空白,为自然语言处理(NLP)研究提供结构化、多任务的宗教知识资源。其核心研究问题是如何将口头宗教讲解转化为可训练的语言模型数据,以支持问答、推理、摘要和释义等任务。作为首个聚焦波斯语《古兰经》注释的指令数据集,tafsir-dataset对伊斯兰宗教计算、波斯语NLP以及低资源语言指令微调领域具有重要推动作用。
当前挑战
该数据集所解决的领域问题在于:传统波斯语宗教NLP资源匮乏,且《古兰经》注释涉及深厚的 theological 语境与多义性,普通模型难以准确捕捉其概念抽象与推理逻辑。构建过程中面临的挑战包括:口语化讲座内容含有大量非正式结构和修辞,需精确清洗与标准化;注释观点具有单一讲者视角(哈梅内伊的释经立场),可能引入意识形态偏差;数据集规模小于1000条样本,限制了模型泛化能力;跨任务类型(如问答与推理)的标注一致性难以保障,需手工校验以维持高质量指令-输出映射。
常用场景
经典使用场景
在自然语言处理与宗教文本分析的交叉领域中,tafsir-dataset为波斯语《古兰经》注释研究提供了珍贵的结构化资源。该数据集最经典的使用场景聚焦于指令微调语言模型,通过包含问答、推理、摘要和释义四大类任务指令,使模型能够精准理解并生成关于《古兰经》经文的神学阐释。研究人员可借助这些标注样本,训练模型完成从经文解读到教义问答的多样化任务,尤其在波斯语宗教文本的语义理解和生成方面展现出独特价值。
解决学术问题
该数据集有效解决了波斯语宗教文本领域缺乏高质量、结构化训练数据的学术困境。传统上,《古兰经》注释研究多依赖于专家手工分析,而tafsir-dataset通过将哈梅内伊的演讲内容转化为指令-响应对,为计算语言学提供了可量化的研究素材。它助力学者探索神学推理的自动化建模,推动宗教文本的语义相似性计算、观点溯源分析等前沿课题,其多任务结构更成为评估语言模型在低资源语言及特定知识领域表现的重要基准。
实际应用
在现实应用层面,tafsir-dataset支撑着伊斯兰知识助手的开发,使智能系统能够为用户提供关于《古兰经》经文的即时问答服务。例如,波斯语使用者可通过自然语言查询特定章节的注释,系统则基于数据集中训练的逻辑生成精确解释。此外,该数据集还被用于宗教教育平台的内容摘要功能,自动化提炼长篇讲经文本的核心观点,以及在跨语言传播中辅助经文释义的改写与本地化适配。
数据集最近研究
最新研究方向
该数据集聚焦波斯语《古兰经》注释(Tafsir)领域的指令微调与宗教文本理解研究,结合了伊斯兰神学讲解与自然语言处理前沿。当前研究方向包括:基于阿亚图拉·哈梅内伊演讲内容构建的问答、推理、摘要及释义任务,用于训练波斯语大语言模型(LLM)的指令跟随能力;同时探索宗教文本的语义分析、神学概念抽取与上下文建模,为伊斯兰知识助手及NLP宗教语料研究提供支撑。该数据集呼应了低资源语言(波斯语)下宗教语料库的稀缺性,推动了多任务学习在神学解释中的应用,具有文化遗产数字化与跨学科AI融合的双重意义。
以上内容由遇见数据集搜集并总结生成



