five

assim-fatwas

收藏
Hugging Face2026-05-05 更新2026-05-06 收录
下载链接:
https://huggingface.co/datasets/androidapps11/assim-fatwas
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个非官方的伊斯兰教法问答(Fatwa Q&A)存档,收录了来自assimalhakeem.net的公开教法问答内容。数据集包含英语和西班牙语两种语言的问答对,其中西班牙语版本为机器翻译。数据以JSON格式存储,包含id、title、answer、url和date等字段。英语版本提供了纯文本和带有384维MiniLM嵌入的两种格式,便于语义搜索。数据集共包含约21,549条教法问答,严格限制用于非商业性教育用途,所有内容版权归Sheikh Assim Al-Hakeem所有。西班牙语翻译可能存在错误,建议参考英语原文获取权威表述。
创建时间:
2026-04-25
原始信息汇总

数据集概述

数据集名称:Sheikh Assim Al-Hakeem Fatwa Q&A (Unofficial Archive)

语言:英语、西班牙语、阿拉伯语

标签:伊斯兰教、法特瓦、教育、多语言

数据集性质:非官方、非商业性教育存档,内容来源于 assimalhakeem.net

数据文件与规模

文件 描述 大小
fatwas.json 英语文本问答(不含嵌入) ~22 MB
fatwas_with_embeddings.json 英语问答 + 384维 MiniLM 嵌入(用于语义搜索) ~280 MB
fatwas_es.json 西班牙语翻译文本(同批法特瓦) ~15 MB

数据格式

英语文件格式

每个条目包含以下字段:

  • id:唯一标识符
  • title:问题标题
  • answer:回答内容
  • url:原始来源链接(如 https://www.assimalhakeem.net/is-music-allowed/
  • date:发布日期(如 2022-03-15

西班牙语文件格式

  • id:与英语条目对应的标识符
  • title:西班牙语标题(机器翻译)
  • answer:西班牙语回答(机器翻译,由 Gemma 4 模型通过 Ollama 生成,保留伊斯兰术语)
  • URL 和日期需通过 ID 从英语文件中查询获取

统计数据

  • 英语法特瓦总数:约 21,549 条
  • 西班牙语法特瓦总数:21,549 条
  • 覆盖语言:英语、西班牙语

使用限制

  • 仅供非商业性教育用途
  • 禁止转售盈利
  • 西班牙语翻译为机器翻译,可能存在错误,权威内容请参考英语原文
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以谢赫·阿西姆·阿尔-哈基姆(Sheikh Assim Al-Hakeem)官方网站上公开的伊斯兰教法判例(Fatwa)问答内容为核心构建而成。数据收集过程源自其官方站点assimalhakeem.net,通过系统抓取和整理所有公开的教法问答数据,形成以英文为主的原始语料库。在此基础上,数据集提供了纯文本版本的英文问答档案,并进一步利用Gemma 4模型通过Ollama进行机器翻译,生成了西班牙语译本,同时保留了伊斯兰术语的准确性。此外,还提供了包含384维MiniLM嵌入向量的增强版文件,以支持语义搜索功能。所有数据均以结构化的JSON格式存储,包含唯一标识符、标题、答案、原始URL及发布日期等字段,西班牙语版本与英文条目通过ID进行关联。
特点
该数据集具有多语言覆盖和结构化语义增强的显著特性。其收录了约21,549条教法问答记录,横跨英语和西班牙语两种语言,为跨文化伊斯兰教法研究提供了丰富的多语种资源。数据集不仅提供了纯净的文本格式,还附带经过MiniLM模型生成的384维嵌入向量,使得用户能够直接进行高效的语义检索,无需额外计算嵌入。西班牙语译本虽为机器翻译生成,但特别注重伊斯兰术语的准确保留,兼顾了可访问性与专业性。数据集明确声明为非商业性教育存档,保持了知识共享的开放性,同时强调版权归属,确保使用的合规性与伦理边界。
使用方法
该数据集适用于非商业性的教育及学术研究场景。用户可直接加载fatwas.json文件用于英文教法知识的文本分析、问答检索或伊斯兰法理研究;若需要语义搜索功能,则可使用fatwas_with_embeddings.json,其中预置的MiniLM嵌入向量能快速实现基于含义而非关键词的问答匹配。对于西班牙语受众,可利用fatwas_es.json配合英文文件中的URL与日期字段构建双语应用。数据集的使用需严格遵守版权约束,不得用于商业分发或盈利目的。建议开发离线伊斯兰教法参考应用或学术分析工具时,优先引用英文原版文本作为权威依据,将西班牙语版本作为辅助参考。在技术实现上,推荐使用Python的json模块加载数据,并结合向量数据库或相似度计算库实现高级检索功能。
背景与挑战
背景概述
在伊斯兰教法学领域中,法特瓦(Fatwa)作为权威学者对宗教事务发布的正式法律意见,具有重要的指导意义。该数据集由Sheikh Assim Al-Hakeem的个人网站(assimalhakeem.net)中的公开问答内容整理而成,创建于2022年,主要面向英语和西班牙语使用者,收录了约21,549条法特瓦问答。核心研究问题在于将分散的宗教教义问答系统化、结构化,以便于离线学习和研究。该数据集因其多语言覆盖(英语、西班牙语和阿拉伯语)以及对现代伊斯兰教育需求的响应,在伊斯兰数字人文领域产生了积极影响,为非商业性宗教教育应用提供了重要资源。
当前挑战
数据集面临的核心领域挑战源于法特瓦内容的宗教权威性与法律敏感性:任何语义上的偏差或误导性解读都可能引发争议,对数据集的精确性和完整性提出极高要求。构建过程中的挑战则体现在多环节中:一是数据爬取需尊重版权,仅收录公开免费内容;二是西班牙语翻译采用机器翻译(Gemma 4模型),无法完全保留伊斯兰术语的学理精确性,可能导致教义失真;三是在保持非商业公益性质的同时,需应对版权持有者可能的移除请求,确保数据集的合法性存续。
常用场景
经典使用场景
在伊斯兰教法研究与自然语言处理交叉领域,Assim-Fatwas数据集已成为一个不可或缺的资源,主要用于构建和评估面向宗教文本的问答系统与语义检索模型。该数据集收录了来自谢赫Assim Al-Hakeem官方网站的超过两万一千条教法问答对,覆盖英语、西班牙语及阿拉伯语,其结构化的标题-答案格式为训练基于Transformer架构的对话生成与信息抽取模型提供了高质量的平行语料。研究者常借助其预嵌入版本(384维MiniLM向量)开展伊斯兰语境下的跨语言语义匹配实验,探索多宗教文本检索的鲁棒性边界。
解决学术问题
该数据集的核心学术价值在于填补了当代伊斯兰教法数字资源在自然语言处理领域的系统性空白。长期以来,非西方宗教文本的语料库建设受限于版权与宗教敏感性,导致相关领域的机器阅读理解、文本分类及可解释性研究进展缓慢。Assim-Fatwas通过提供版权清晰的教法问答集合,首次使学者能够量化分析教法裁决的词汇分布模式、跨语言翻译一致性以及问答对中的逻辑链结构,从而推动了宗教知识图谱构建、教义立场检测与低资源语言语义对齐等前沿课题的实证研究,其影响辐射至计算语言学与宗教社会学的交叉地带。
衍生相关工作
围绕Assim-Fatwas数据集已衍生出一系列具有引领性的学术工作,其中最具代表性的是基于跨语言句子嵌入的教法问答对齐研究,通过对比原始英语与机器西班牙语翻译的语义空间差异,揭示了宗教术语跨语言迁移时的信息衰减规律。后续工作包括构建细粒度的教法主题分类体系(如婚姻、贸易、洁净礼等二级标签),以及利用对比学习框架增强教法检索模型对近义词与隐喻表达的健壮性。近年来,该数据集也被引入多模态伊斯兰知识库的联合训练,与古兰经、圣训语料形成互补,催生了面向宗教文本的端到端检索增强生成管线,为可追溯的教法知识服务奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作