nazimali/quran-question-answer-context
收藏Hugging Face2023-07-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nazimali/quran-question-answer-context
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Quran Question Answer with Context,包含阿拉伯语和英语两种语言,主要用于问答任务。数据集的特征包括问题ID、问题、答案、问题关键词、问题主题、细分类别、类别、本体概念、来源、章节名称、章节编号、经文、英文翻译等。数据集分为训练集和测试集,分别包含978和245个样本。数据集是从阿拉伯语翻译成英语,并添加了Surah ayahs到`context`列。初始数据收集自Annotated Corpus of Arabic Al-Quran Question and Answer,许可信息为CC BY 4.0。
该数据集名为Quran Question Answer with Context,包含阿拉伯语和英语两种语言,主要用于问答任务。数据集的特征包括问题ID、问题、答案、问题关键词、问题主题、细分类别、类别、本体概念、来源、章节名称、章节编号、经文、英文翻译等。数据集分为训练集和测试集,分别包含978和245个样本。数据集是从阿拉伯语翻译成英语,并添加了Surah ayahs到`context`列。初始数据收集自Annotated Corpus of Arabic Al-Quran Question and Answer,许可信息为CC BY 4.0。
提供机构:
nazimali
原始信息汇总
数据集概述
数据集信息
-
特征列表:
q_id: 整数类型question: 字符串类型answer: 字符串类型q_word: 字符串类型q_topic: 字符串类型fine_class: 字符串类型class: 字符串类型ontology_concept: 字符串类型ontology_concept2: 字符串类型source: 字符串类型q_src_id: 整数类型quetion_type: 字符串类型chapter_name: 字符串类型chapter_no: 整数类型verse: 字符串序列类型question_en: 字符串类型answer_en: 字符串类型q_word_en: 字符串类型q_topic_en: 字符串类型fine_class_en: 字符串类型class_en: 字符串类型ontology_concept_en: 字符串类型chapter_name_en: 字符串类型context: 字符串类型
-
数据分割:
train: 包含978个样本,大小为2226830.0310711367字节test: 包含245个样本,大小为557845.9689288634字节
-
下载大小:1515128字节
-
数据集大小:2784676.0字节
-
许可证:CC BY 4.0
-
任务类别:问答
-
名称:Quran Question Answer with Context
-
语言:阿拉伯语、英语
-
标签:伊斯兰教、古兰经、阿拉伯语
数据集使用
python from datasets import load_dataset
dataset = load_dataset("nazimali/quran-question-answer-context")
翻译信息
- 使用Helsinki-NLP/opus-mt-ar-en将阿拉伯语问题/概念列翻译为英语。
- 使用M-AI-C/quran-en-tafssirs的
en-yusufali翻译版本。 - 使用kheder/quran重命名章节。
- 添加帮助回答问题的经文:
- 将
ayah列的字符串拆分为整数列表 - 将章节:经文对连接成句子添加到
context列
- 将
待办事项
context列存在一些null值,需要调查和修复。
初始数据收集
原始数据集来自Annotated Corpus of Arabic Al-Quran Question and Answer。
许可证信息
原始数据集许可证为Creative Commons Attribution 4.0 International (CC BY 4.0)。
贡献者
原始论文作者:Alqahtani, Mohammad 和 Atwell, Eric (2018) Annotated Corpus of Arabic Al-Quran Question and Answer. University of Leeds. https://doi.org/10.5518/356



