five

SajjadAyoubi/persian_qa

收藏
Hugging Face2021-04-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SajjadAyoubi/persian_qa
下载链接
链接失效反馈
官方服务:
资源简介:
PersianQA数据集是一个基于波斯语维基百科的阅读理解数据集。该数据集包含超过9,000个条目,每个条目可能是一个无法回答的问题或一个带有一个或多个答案的问题。数据集还包括900个测试数据,并且已经训练了基于Transformer的模型。所有数据集的众包工作者都是波斯语母语者,上下文内容涵盖了维基百科的所有类别(历史、宗教、地理、科学等)。每个上下文包含7个带有一个答案的问题对和3个无法回答的问题。
提供机构:
SajjadAyoubi
原始信息汇总

PersianQA: 波斯语问答数据集

数据集概述

PersianQA 是一个基于波斯语维基百科的阅读理解数据集,包含超过 9,000 个条目。每个条目可能是一个无法回答的问题,或者是一个在文本(上下文)中有一个或多个答案的问题。类似于 SQuAD2.0 数据集,无法回答的问题可以用于创建一个“知道它不知道答案”的系统。

此外,数据集还提供了 900 个测试数据。目前,每个上下文有 7 对问题和一个答案,以及 3 个无法回答的问题。

数据集访问/下载

  • 数据集可以在 dataset/ 目录下找到,并按如下方式使用: python import read_qa # 可在 src/read_ds.py 中找到 train_ds = read_qa(pqa_train.json) test_ds = read_qa(pqa_test.json)

  • 也可以通过 HuggingFace🤗 数据集库访问数据:

    • 首先,需要在终端中使用以下命令安装数据集: sh pip install -q datasets

    • 然后使用 load_dataset 导入 persian_qa 数据集: python from datasets import load_dataset dataset = load_dataset("SajjadAyoubi/persian_qa")

数据集示例

Title Context Question Answer
خوب، بد، زشت 上下文内容 问题内容 答案内容
قرارداد کرسنت 上下文内容 问题内容 答案内容
چهارشنبه‌سوری 上下文内容 问题内容 No Answer

数据集统计

Split # of instances # of unanswerables avg. question length avg. paragraph length avg. answer length
Train 9,000 2,700 8.39 224.58 9.61
Test 938 280 8.02 220.18 5.99

长度以词级别计算。

引用

bibtex @misc{PersianQA, author = {Ayoubi, Sajjad & Davoodeh, Mohammad Yasin}, title = {PersianQA: a dataset for Persian Question Answering}, year = 2021, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/SajjjadAyobi/PersianQA}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作