SajjadAyoubi/persian_qa

Name: SajjadAyoubi/persian_qa
Creator: SajjadAyoubi
Published: 2021-04-29 06:11:18
License: 暂无描述

Hugging Face2021-04-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SajjadAyoubi/persian_qa

下载链接

链接失效反馈

官方服务：

资源简介：

PersianQA数据集是一个基于波斯语维基百科的阅读理解数据集。该数据集包含超过9,000个条目，每个条目可能是一个无法回答的问题或一个带有一个或多个答案的问题。数据集还包括900个测试数据，并且已经训练了基于Transformer的模型。所有数据集的众包工作者都是波斯语母语者，上下文内容涵盖了维基百科的所有类别（历史、宗教、地理、科学等）。每个上下文包含7个带有一个答案的问题对和3个无法回答的问题。

提供机构：

SajjadAyoubi

原始信息汇总

PersianQA: 波斯语问答数据集

数据集概述

PersianQA 是一个基于波斯语维基百科的阅读理解数据集，包含超过 9,000 个条目。每个条目可能是一个无法回答的问题，或者是一个在文本（上下文）中有一个或多个答案的问题。类似于 SQuAD2.0 数据集，无法回答的问题可以用于创建一个“知道它不知道答案”的系统。

此外，数据集还提供了 900 个测试数据。目前，每个上下文有 7 对问题和一个答案，以及 3 个无法回答的问题。

数据集访问/下载

数据集可以在 dataset/ 目录下找到，并按如下方式使用： python import read_qa # 可在 src/read_ds.py 中找到 train_ds = read_qa(pqa_train.json) test_ds = read_qa(pqa_test.json)
也可以通过 HuggingFace🤗 数据集库访问数据：
- 首先，需要在终端中使用以下命令安装数据集： sh pip install -q datasets
- 然后使用 load_dataset 导入 persian_qa 数据集： python from datasets import load_dataset dataset = load_dataset("SajjadAyoubi/persian_qa")

数据集示例

Title	Context	Question	Answer
خوب، بد، زشت	上下文内容	问题内容	答案内容
قرارداد کرسنت	上下文内容	问题内容	答案内容
چهارشنبه‌سوری	上下文内容	问题内容	No Answer

数据集统计

Split	# of instances	# of unanswerables	avg. question length	avg. paragraph length	avg. answer length
Train	9,000	2,700	8.39	224.58	9.61
Test	938	280	8.02	220.18	5.99

长度以词级别计算。

引用

bibtex @misc{PersianQA, author = {Ayoubi, Sajjad & Davoodeh, Mohammad Yasin}, title = {PersianQA: a dataset for Persian Question Answering}, year = 2021, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/SajjjadAyobi/PersianQA}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集