Salama1429/tarteel-ai-QuranQA
收藏古兰经阅读理解数据集 (QRCD) 概述
数据集描述
数据集摘要
QRCD(古兰经阅读理解数据集)包含1,093个问题-段落对,以及从中提取的答案,构成1,337个问题-段落-答案三元组。
支持的任务和排行榜
该任务被评估为一个排名任务。使用部分倒数排名(pRR)作为官方评估指标,同时也报告完全匹配(EM)和F1@1指标。
语言
古兰经阿拉伯语
数据集结构
数据实例
每个元组包含一个段落、一个问题和一个可能包含一个或多个答案的列表,示例如下:
json { "pq_id": "38:41-44_105", "passage": "واذكر عبدنا أيوب إذ نادى ربه أني مسني الشيطان بنصب وعذاب. اركض برجلك هذا مغتسل بارد وشراب. ووهبنا له أهله ومثلهم معهم رحمة منا وذكرى لأولي الألباب. وخذ بيدك ضغثا فاضرب به ولا تحنث إنا وجدناه صابرا نعم العبد إنه أواب.", "surah": 38, "verses": "41-44", "question": "من هو النبي المعروف بالصبر؟", "answers": [ { "text": "أيوب", "start_char": 12 } ] }
数据字段
pq_id: 样本IDpassage: 上下文文本surah: 章节号verses: 诗句范围question: 问题文本answers: 答案列表及其起始字符
数据分割
| 数据集 | % | 问题-段落对数量 | 问题-段落-答案三元组数量 |
|---|---|---|---|
| 训练集 | 65% | 710 | 861 |
| 开发集 | 10% | 109 | 128 |
| 测试集 | 25% | 274 | 348 |
| 全部 | 100% | 1,093 | 1,337 |
数据集创建
数据集来源
QRCD中的古兰经文本来源是Tanzil项目的下载页面,选择了Tanzil版本1.0.2的简单-干净文本样式。
使用数据的注意事项
许可信息
QRCD v1.1数据集根据CC-BY-ND 4.0许可证发布。
引用信息
@article{malhas2020ayatec, author = {Malhas, Rana and Elsayed, Tamer}, title = {AyaTEC: Building a Reusable Verse-Based Test Collection for Arabic Question Answering on the Holy Qur’an}, year = {2020}, issue_date = {November 2020}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, volume = {19}, number = {6}, issn = {2375-4699}, url = {https://doi.org/10.1145/3400396}, doi = {10.1145/3400396}, journal = {ACM Trans. Asian Low-Resour. Lang. Inf. Process.}, month = {oct}, articleno = {78}, numpages = {21}, keywords = {evaluation, Classical Arabic} }



