fatwa-training_standardized_new
收藏Hugging Face2025-12-12 更新2025-12-13 收录
下载链接:
https://huggingface.co/datasets/SahmBenchmark/fatwa-training_standardized_new
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含伊斯兰金融和法学的fatwa(伊斯兰法学裁决)问答对,采用标准化的对话格式,用于训练阿拉伯语语言模型。每个原始样本都增加了3种不同的提示模板以提高训练多样性。数据集包含9,953个样本,6,212个独特的fatwa,每个fatwa有3种提示变体。数据集的字段包括唯一标识符、对话内容、伊斯兰金融类别、是否为转介、问题长度和回答长度等。此外,数据集还详细列出了11个伊斯兰金融类别及其样本数量,以及3种不同的提示模板风格。
创建时间:
2025-12-07
原始信息汇总
Fatwa Training Dataset (Standardized) 数据集概述
数据集描述
该数据集包含伊斯兰金融和教法判例(Fatwa)的问答对,采用标准化对话格式,用于训练阿拉伯语语言模型。每个原始样本均通过3种不同的提示模板进行了增强,以增加训练多样性。
数据集统计
- 总样本数: 9,953
- 唯一判例数: 6,212
- 提示模板变体: 每个判例3个
- 平均问题长度: 230.0 字符
- 平均答案长度: 493.6 字符
数据集结构
数据字段
id: 每个判例的唯一标识符(格式:fatwa_XXXXX)conversations: 聊天格式的对话轮次列表content: 文本内容role: “human”(提问者)或“agent”(回答者)
category: 伊斯兰金融类别is_referral: 该判例是否主要为转介(YES/NO)question_length: 原始问题的字符数answer_length: 答案的字符数
类别分布
- zakat (天课): 4096 个样本
- riba (利息/高利贷): 2047 个样本
- murabaha (成本加成融资): 1155 个样本
- gharar (合同中的不确定性): 711 个样本
- waqf (伊斯兰捐赠基金): 606 个样本
- ijara (伊斯兰租赁): 469 个样本
- maysir (赌博相关裁决): 308 个样本
- musharaka (合伙融资): 198 个样本
- mudharaba (利润分享合伙): 188 个样本
- takaful (伊斯兰保险): 149 个样本
- sukuk (伊斯兰债券): 26 个样本
提示模板
每个判例以3种不同的提示风格出现:
- 正式风格: “بناءً على أحكام الشريعة الإسلامية والفقه الإسلامي، أجب على السؤال التالي...”
- 简洁风格: “أجب على السؤال التالي وفقاً لأحكام الشريعة الإسلامية...”
- 专家角色: “أنت عالم متخصص في الفقه الإسلامي والمعاملات المالية...”
使用方式
数据集加载方式如下: python from datasets import load_dataset dataset = load_dataset("SahmBenchmark/fatwa-training_standardized_new")
微调时可按指定格式处理数据。
类别说明
- zakat: 伊斯兰天课
- riba: 利息/高利贷相关裁决
- murabaha: 成本加成融资
- gharar: 合同中的不确定性
- waqf: 伊斯兰捐赠基金
- ijara: 伊斯兰租赁
- maysir: 赌博相关裁决
- musharaka: 合伙融资
- mudharaba: 利润分享合伙
- takaful: 伊斯兰保险
- sukuk: 伊斯兰债券
引用信息
引用格式如下: bibtex @dataset{fatwa_training_standardized, title={Fatwa Training Dataset (Standardized)}, author={SahmBenchmark}, year={2025}, url={https://huggingface.co/datasets/SahmBenchmark/fatwa-training_standardized_new} }
许可证
Apache 2.0 许可证
搜集汇总
数据集介绍

构建方式
在伊斯兰金融与教法学领域,该数据集通过系统化整理与标准化处理构建而成。其核心源自6212条独特的教法问答,每条原始数据均经过精心筛选与分类,涵盖天课、利息、成本加成融资等11个关键类别。构建过程中,每条教法问答被赋予三种不同的提示模板,包括正式风格、简洁风格及专家角色设定,从而生成总计9953条训练样本。这种多模板增强策略不仅丰富了数据多样性,更确保了模型训练时能够适应不同的语言表达与语境需求。
特点
本数据集以标准化对话格式呈现,每条样本均包含清晰的角色标注,即“人类”提问与“代理”回答,便于直接应用于对话式语言模型的训练。数据规模适中,涵盖近万条样本,平均问题长度为230字符,答案长度达493.6字符,确保了内容的详实性与深度。其突出特点在于类别分布均衡,覆盖了伊斯兰金融的核心议题,如天课、利息禁令与合伙融资等,且通过提示模板的多样化设计,增强了模型对复杂教法问题的理解与生成能力。
使用方法
使用者可通过Hugging Face的datasets库直接加载该数据集,并利用其内置的对话结构进行模型微调。数据以标准化的JSON格式存储,每条记录包含唯一标识符、对话轮次及分类标签,便于快速集成至训练流程。针对指令微调场景,可自定义格式化函数,将人类提问与助理回答拼接为连贯文本,适配多种生成式模型的输入要求。该数据集适用于阿拉伯语语言模型的训练,特别是在伊斯兰金融与教法学领域的问答任务中,能够有效提升模型的领域专业知识与应答准确性。
背景与挑战
背景概述
随着伊斯兰金融在全球范围内的蓬勃发展,对符合教法(Sharia)的金融产品与服务的需求日益增长,这催生了针对伊斯兰教法判例(Fatwa)进行自动化问答的技术需求。在此背景下,SahmBenchmark研究团队于2025年发布了Fatwa Training Dataset (Standardized)数据集。该数据集聚焦于伊斯兰金融与教法判例领域,核心研究问题在于如何构建高质量的阿拉伯语指令微调数据,以训练语言模型理解和生成符合伊斯兰教义的权威解答。其涵盖了天课(zakat)、利息(riba)、成本加成融资(murabaha)等十一个关键类别,旨在推动阿拉伯语自然语言处理技术在专业垂直领域的应用,并为伊斯兰金融科技的智能化发展提供关键数据支撑。
当前挑战
该数据集旨在解决的领域核心挑战,是构建能够精准处理伊斯兰金融复杂教法问答的阿拉伯语人工智能模型。这一任务面临多重困难:首先,伊斯兰教法判例高度依赖经典文本、法学流派差异和具体情境,要求模型具备深度的领域知识和严谨的推理能力。其次,阿拉伯语本身丰富的形态和句法结构也为自然语言理解增添了复杂性。在数据集构建过程中,挑战同样显著。原始法特瓦的收集、标准化与分类需要深厚的宗教学与金融学交叉知识。为确保数据的多样性与训练有效性,研究团队还需为每条判例精心设计三种不同风格的提示模板,并在保持教义准确性的前提下,将非结构化的问答对转化为统一的对话格式,这一过程对标注的规范性与一致性提出了极高要求。
常用场景
经典使用场景
在伊斯兰金融与法学领域,该数据集为阿拉伯语大语言模型的指令微调提供了标准化训练资源。其核心应用场景在于构建能够理解并生成符合伊斯兰教法原则的问答系统,通过涵盖天课、利息禁令、成本加成融资等十一类金融议题的教法判例,模型得以学习如何依据经典文本与法学原理,对复杂金融实践提供权威解答。多样化的提示模板进一步增强了模型应对不同对话风格与用户需求的能力。
解决学术问题
该数据集有效解决了阿拉伯语自然语言处理研究中专业领域数据稀缺的瓶颈,尤其针对伊斯兰金融这一高度专业化领域。它为学术界提供了探索低资源语言环境下领域自适应、跨文化语境理解以及伦理对齐等关键问题的实验基础。通过结构化的问题-答案对,研究者能够深入分析模型在遵循特定宗教与法律框架时的推理一致性、知识准确性与解释透明度,推动了负责任人工智能在多元文化背景下的发展。
衍生相关工作
围绕该数据集,已衍生出多项专注于阿拉伯语领域模型性能评估与优化的研究。例如,相关工作包括构建更细粒度的伊斯兰金融知识评测基准,以检验模型对特定子领域如天课或伊斯兰债券的掌握深度。同时,研究者利用其多提示模板特性,探索了提示工程对模型输出稳定性与风格适应性的影响。这些工作共同推动了面向阿拉伯语及特定文化宗教语境的可信人工智能系统的构建与评测框架的完善。
以上内容由遇见数据集搜集并总结生成



