five

Salama1429/tarteel-ai-QuranQA

收藏
Hugging Face2023-06-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Salama1429/tarteel-ai-QuranQA
下载链接
链接失效反馈
官方服务:
资源简介:
Quranic Reading Comprehension Dataset (QRCD) 由1,093个问题-段落对组成,这些对与提取的答案结合形成了1,337个问题-段落-答案三元组。数据集的语言是古兰经阿拉伯语,主要用于问答任务,特别是提取式问答。数据集的结构包括每个样本的ID、段落文本、章节编号、诗句范围、问题文本和答案列表。数据集分为训练集、开发集和测试集,分别占总数据的65%、10%和25%。数据集的创建过程、注释过程、社会影响、偏见讨论和其他限制信息尚未提供。数据集使用CC-BY-ND 4.0许可证分发。
提供机构:
Salama1429
原始信息汇总

古兰经阅读理解数据集 (QRCD) 概述

数据集描述

数据集摘要

QRCD(古兰经阅读理解数据集)包含1,093个问题-段落对,以及从中提取的答案,构成1,337个问题-段落-答案三元组。

支持的任务和排行榜

该任务被评估为一个排名任务。使用部分倒数排名(pRR)作为官方评估指标,同时也报告完全匹配(EM)和F1@1指标。

语言

古兰经阿拉伯语

数据集结构

数据实例

每个元组包含一个段落、一个问题和一个可能包含一个或多个答案的列表,示例如下:

json { "pq_id": "38:41-44_105", "passage": "واذكر عبدنا أيوب إذ نادى ربه أني مسني الشيطان بنصب وعذاب. اركض برجلك هذا مغتسل بارد وشراب. ووهبنا له أهله ومثلهم معهم رحمة منا وذكرى لأولي الألباب. وخذ بيدك ضغثا فاضرب به ولا تحنث إنا وجدناه صابرا نعم العبد إنه أواب.", "surah": 38, "verses": "41-44", "question": "من هو النبي المعروف بالصبر؟", "answers": [ { "text": "أيوب", "start_char": 12 } ] }

数据字段

  • pq_id: 样本ID
  • passage: 上下文文本
  • surah: 章节号
  • verses: 诗句范围
  • question: 问题文本
  • answers: 答案列表及其起始字符

数据分割

数据集 % 问题-段落对数量 问题-段落-答案三元组数量
训练集 65% 710 861
开发集 10% 109 128
测试集 25% 274 348
全部 100% 1,093 1,337

数据集创建

数据集来源

QRCD中的古兰经文本来源是Tanzil项目的下载页面,选择了Tanzil版本1.0.2的简单-干净文本样式。

使用数据的注意事项

许可信息

QRCD v1.1数据集根据CC-BY-ND 4.0许可证发布。

引用信息

@article{malhas2020ayatec, author = {Malhas, Rana and Elsayed, Tamer}, title = {AyaTEC: Building a Reusable Verse-Based Test Collection for Arabic Question Answering on the Holy Qur’an}, year = {2020}, issue_date = {November 2020}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, volume = {19}, number = {6}, issn = {2375-4699}, url = {https://doi.org/10.1145/3400396}, doi = {10.1145/3400396}, journal = {ACM Trans. Asian Low-Resour. Lang. Inf. Process.}, month = {oct}, articleno = {78}, numpages = {21}, keywords = {evaluation, Classical Arabic} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作