SajjadAyoubi/persian_qa
收藏PersianQA: 波斯语问答数据集
数据集概述
PersianQA 是一个基于波斯语维基百科的阅读理解数据集,包含超过 9,000 个条目。每个条目可能是一个无法回答的问题,或者是一个在文本(上下文)中有一个或多个答案的问题。类似于 SQuAD2.0 数据集,无法回答的问题可以用于创建一个“知道它不知道答案”的系统。
此外,数据集还提供了 900 个测试数据。目前,每个上下文有 7 对问题和一个答案,以及 3 个无法回答的问题。
数据集访问/下载
-
数据集可以在
dataset/目录下找到,并按如下方式使用: python import read_qa # 可在 src/read_ds.py 中找到 train_ds = read_qa(pqa_train.json) test_ds = read_qa(pqa_test.json) -
也可以通过 HuggingFace🤗 数据集库访问数据:
-
首先,需要在终端中使用以下命令安装数据集: sh pip install -q datasets
-
然后使用
load_dataset导入persian_qa数据集: python from datasets import load_dataset dataset = load_dataset("SajjadAyoubi/persian_qa")
-
数据集示例
| Title | Context | Question | Answer |
|---|---|---|---|
| خوب، بد، زشت | 上下文内容 | 问题内容 | 答案内容 |
| قرارداد کرسنت | 上下文内容 | 问题内容 | 答案内容 |
| چهارشنبهسوری | 上下文内容 | 问题内容 | No Answer |
数据集统计
| Split | # of instances | # of unanswerables | avg. question length | avg. paragraph length | avg. answer length |
|---|---|---|---|---|---|
| Train | 9,000 | 2,700 | 8.39 | 224.58 | 9.61 |
| Test | 938 | 280 | 8.02 | 220.18 | 5.99 |
长度以词级别计算。
引用
bibtex @misc{PersianQA, author = {Ayoubi, Sajjad & Davoodeh, Mohammad Yasin}, title = {PersianQA: a dataset for Persian Question Answering}, year = 2021, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/SajjjadAyobi/PersianQA}}, }



