Athar-Mini-Dataset-v2

Hugging Face2026-04-19 更新2026-04-20 收录

下载链接：

https://huggingface.co/datasets/Kandil7/Athar-Mini-Dataset-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Athar Mini Dataset v2 是一个包含10万条阿拉伯语伊斯兰教相关段落的数据集，专为问答（QA）和检索增强生成（RAG）系统设计。数据集覆盖10个主要的伊斯兰教知识领域，包括伊斯兰神学、阿拉伯语语法、伊斯兰法学、圣训学、伊斯兰历史、古兰经注释、先知传记、灵修学和法学原理等。每个领域包含1万条段落，数据以JSONL格式存储，包含内容、内容类型、书籍ID、书籍标题、类别、作者、作者去世年份、集合、页码、章节标题和层次结构等字段。数据集分为95%的训练集（95,000条）和5%的测试集（5,000条），适用于阿拉伯语伊斯兰问答系统、伊斯兰知识检索、阿拉伯语大语言模型微调和伊斯兰聊天机器人等应用场景。数据集采用CC BY 4.0许可协议。

创建时间：

2026-04-19

原始信息汇总

Athar Mini Dataset v2 数据集概述

基本信息

数据集名称：Athar Mini Dataset v2
数据集描述：100K Arabic Islamic passages for QA/RAG systems across 10 major Islamic collections
语言：阿拉伯语 (ar)
许可证：CC BY 4.0 (cc-by-4.0)
数据格式：JSONL
任务类别：问答 (qa)
任务ID：开放域问答 (open-domain-qa)
规模类别：n<1M
标签：arabic, islamic, qa, rag

数据规模与划分

总段落数：100,000
训练集：95,000 个样本 (95%)
测试集：5,000 个样本 (5%)

内容构成

数据集包含来自10个主要伊斯兰知识领域的段落，每个领域10,000个段落。

aqeedah_passages - العقيدة (伊斯兰神学/信仰)
- 主题：认主独一、安拉的属性、信仰、不信、以物配主
arabic_language_passages - اللغة العربية (阿拉伯语)
- 主题：阿拉伯语语法、词法、修辞
fiqh_passages - الفقه (伊斯兰法学)
- 主题：功修法学、交易法学、家庭法学、继承法学
general_islamic - عام إسلامي (通用伊斯兰知识)
- 主题：通用伊斯兰知识
hadith_passages - الحديث (圣训)
- 主题：圣训学、圣训集
islamic_history_passages - التاريخ الإسلامي (伊斯兰历史)
- 主题：早期伊斯兰哈里发时期、学者
quran_tafsir - تفسير القرآن (古兰经注)
- 主题：古兰经注释、经注学
seerah_passages - السيرة (先知传记)
- 主题：先知穆罕默德的生平
spirituality_passages - الروحانيات (灵修)
- 主题：苏菲主义、记主、祈祷
usul_fiqh - أصول الفقه (法学原理)
- 主题：法学原理、类比、公议

数据模式

每个数据样本包含以下字段：

content: 阿拉伯文段落文本
content_type: 内容类型 (例如："page")
book_id: 书籍ID
book_title: 书籍标题
category: 类别 (阿拉伯语标签)
author: 作者姓名
author_death: 作者归真年份
collection: 所属集合 (对应上述10个领域之一)
page_number: 页码
section_title: 章节标题
hierarchy: 层级结构 (例如：["书籍标题", "章节标题"])

主要用途

阿拉伯语伊斯兰问答系统
伊斯兰知识的检索增强生成 (RAG)
微调阿拉伯语大语言模型 (LLMs)
伊斯兰聊天机器人

相关资源

Athar-Islamic-QA 数据集：https://huggingface.co/datasets/Kandil7/Athar-Islamic-QA

搜集汇总

数据集介绍

构建方式

在伊斯兰知识数字化浪潮中，Athar-Mini-Dataset-v2的构建体现了对阿拉伯语经典文本的系统性整理。该数据集从十个核心伊斯兰知识领域中，包括《古兰经》注疏、圣训学、教法学、教义学等，每个领域精选一万段文本段落，总计汇集了十万段阿拉伯语原文。构建过程遵循严谨的学术分类，为每段文本标注了详尽的元数据，如所属典籍、作者、成书年代及章节层级，确保了数据来源的可靠性与知识结构的清晰度。

使用方法

对于致力于开发阿拉伯语伊斯兰知识处理模型的研究者与工程师而言，该数据集提供了便捷的接入途径。用户可通过Hugging Face的`datasets`库直接加载，快速获取已划分为训练集与测试集的数据。数据集主要服务于开放域问答系统的构建、检索增强生成技术的应用，以及对大型语言模型进行领域适应性微调。其标准化的JSONL格式与清晰的字段定义，便于直接集成到现有的自然语言处理流程中，加速相关应用的原型开发与性能评估。

背景与挑战

背景概述

在阿拉伯语自然语言处理领域，针对伊斯兰知识构建高质量数据集的需求日益凸显。Athar-Mini-Dataset-v2由Kandil7团队创建，旨在为问答系统和检索增强生成系统提供丰富的阿拉伯语伊斯兰文本资源。该数据集汇集了来自十个核心伊斯兰知识领域的十万条文本段落，涵盖教义学、法学、圣训学及古兰经注疏等专业范畴，其构建工作聚焦于解决阿拉伯语伊斯兰知识在人工智能应用中的结构化表示与可访问性问题。该资源的推出，显著促进了阿拉伯语大语言模型在特定文化宗教语境下的微调与应用研究，为跨语言伊斯兰知识服务奠定了数据基础。

当前挑战

该数据集致力于应对阿拉伯语伊斯兰知识问答这一领域挑战，其核心在于处理古典阿拉伯语的复杂语法结构、专业术语的歧义性以及跨历史文本的语义一致性难题。在构建过程中，研究人员需克服来自十类不同伊斯兰典籍的文本整合困难，包括确保各领域知识覆盖的均衡性、处理历史文献中年代与作者的元数据标注准确性，以及维护庞大文本语料在格式与质量上的统一标准。这些挑战对数据集的代表性、可靠性与实用性构成了直接影响。

常用场景

经典使用场景

在阿拉伯语伊斯兰知识处理领域，该数据集为构建高质量的问答系统提供了核心语料支持。其经典使用场景在于训练和评估基于检索增强生成（RAG）架构的模型，模型能够从涵盖教义、法学、圣训等十个主要伊斯兰知识门类的十万条阿拉伯语段落中精准检索相关信息，并生成符合伊斯兰学术规范的准确回答。

解决学术问题

该数据集有效解决了低资源语言和特定领域知识融合的学术挑战。它为阿拉伯语自然语言处理研究提供了稀缺的、高质量的专业领域标注数据，弥合了通用语言模型与深奥伊斯兰知识之间的鸿沟。其意义在于为构建具备领域深度的可信人工智能系统奠定了数据基础，推动了文化敏感型AI技术的发展。

实际应用

在实际应用层面，该数据集支撑了多种面向阿拉伯语用户的智能服务。基于此开发的伊斯兰知识问答机器人、智能教法咨询工具以及古兰经注释检索系统，能够为学者、学生及普通信众提供即时、准确的宗教知识查询服务，提升了知识获取的效率和可及性，体现了人工智能在文化遗产数字化与服务化中的价值。

数据集最近研究