five

nazimali/quran-question-answer-context

收藏
Hugging Face2023-07-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nazimali/quran-question-answer-context
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Quran Question Answer with Context,包含阿拉伯语和英语两种语言,主要用于问答任务。数据集的特征包括问题ID、问题、答案、问题关键词、问题主题、细分类别、类别、本体概念、来源、章节名称、章节编号、经文、英文翻译等。数据集分为训练集和测试集,分别包含978和245个样本。数据集是从阿拉伯语翻译成英语,并添加了Surah ayahs到`context`列。初始数据收集自Annotated Corpus of Arabic Al-Quran Question and Answer,许可信息为CC BY 4.0。

该数据集名为Quran Question Answer with Context,包含阿拉伯语和英语两种语言,主要用于问答任务。数据集的特征包括问题ID、问题、答案、问题关键词、问题主题、细分类别、类别、本体概念、来源、章节名称、章节编号、经文、英文翻译等。数据集分为训练集和测试集,分别包含978和245个样本。数据集是从阿拉伯语翻译成英语,并添加了Surah ayahs到`context`列。初始数据收集自Annotated Corpus of Arabic Al-Quran Question and Answer,许可信息为CC BY 4.0。
提供机构:
nazimali
原始信息汇总

数据集概述

数据集信息

  • 特征列表

    • q_id: 整数类型
    • question: 字符串类型
    • answer: 字符串类型
    • q_word: 字符串类型
    • q_topic: 字符串类型
    • fine_class: 字符串类型
    • class: 字符串类型
    • ontology_concept: 字符串类型
    • ontology_concept2: 字符串类型
    • source: 字符串类型
    • q_src_id: 整数类型
    • quetion_type: 字符串类型
    • chapter_name: 字符串类型
    • chapter_no: 整数类型
    • verse: 字符串序列类型
    • question_en: 字符串类型
    • answer_en: 字符串类型
    • q_word_en: 字符串类型
    • q_topic_en: 字符串类型
    • fine_class_en: 字符串类型
    • class_en: 字符串类型
    • ontology_concept_en: 字符串类型
    • chapter_name_en: 字符串类型
    • context: 字符串类型
  • 数据分割

    • train: 包含978个样本,大小为2226830.0310711367字节
    • test: 包含245个样本,大小为557845.9689288634字节
  • 下载大小:1515128字节

  • 数据集大小:2784676.0字节

  • 许可证:CC BY 4.0

  • 任务类别:问答

  • 名称:Quran Question Answer with Context

  • 语言:阿拉伯语、英语

  • 标签:伊斯兰教、古兰经、阿拉伯语

数据集使用

python from datasets import load_dataset

dataset = load_dataset("nazimali/quran-question-answer-context")

翻译信息

  1. 使用Helsinki-NLP/opus-mt-ar-en将阿拉伯语问题/概念列翻译为英语。
  2. 使用M-AI-C/quran-en-tafssirsen-yusufali翻译版本。
  3. 使用kheder/quran重命名章节。
  4. 添加帮助回答问题的经文:
    • ayah列的字符串拆分为整数列表
    • 将章节:经文对连接成句子添加到context

待办事项

context列存在一些null值,需要调查和修复。

初始数据收集

原始数据集来自Annotated Corpus of Arabic Al-Quran Question and Answer

许可证信息

原始数据集许可证为Creative Commons Attribution 4.0 International (CC BY 4.0)

贡献者

原始论文作者:Alqahtani, Mohammad 和 Atwell, Eric (2018) Annotated Corpus of Arabic Al-Quran Question and Answer. University of Leeds. https://doi.org/10.5518/356

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作