persiannlp/parsinlu_reading_comprehension
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/persiannlp/parsinlu_reading_comprehension
下载链接
链接失效反馈官方服务:
资源简介:
PersiNLU数据集是一个用于波斯语阅读理解任务的数据集,包含从Google自动完成中提取的问题,并由母语者手动注释答案和相应的证据文档。数据集的结构包括问题、段落、URL和答案字段,数据分为训练集和测试集,分别包含600和575个样本。数据集的创建过程涉及通过Google自动完成收集问题,并由母语者进行注释。数据集的语言为波斯语,采用CC BY-NC-SA 4.0许可证。
提供机构:
persiannlp
原始信息汇总
数据集概述
- 名称: PersiNLU (Reading Comprehension)
- 语言: 波斯语 (
fa) - 许可证: CC BY-NC-SA 4.0
- 数据集大小: 1K<n<10K
- 任务类别: 问答 (extractive-qa)
- 数据来源: 扩展自维基百科和谷歌
- 注释创建者: 专家生成
- 语言创建者: 专家生成
数据集结构
数据实例
- 问题 (
question): 使用谷歌自动完成挖掘的问题。 - 段落 (
passage): 包含答案的段落。 - URL (
url): 挖掘段落的网址。 - 答案 (
answers): 包含答案文本及其起始索引的列表。
数据字段
question: 问题文本。passage: 段落文本。url: 段落来源的网址。answers: 答案列表,每个答案包含answer_text和answer_start。
数据分割
- 训练/测试分割: 600/575样本。
数据集创建
注释过程
- 问题通过谷歌自动完成收集。
- 答案由母语者手动标注。
许可证信息
- 数据集遵循CC BY-NC-SA 4.0许可证。
引用信息
bibtex
@article{huggingface:dataset,
title = {ParsiNLU: A Suite of Language Understanding Challenges for Persian},
authors = {Khashabi, Daniel and Cohan, Arman and Shakeri, Siamak and Hosseini, Pedram and Pezeshkpour, Pouya and Alikhani, Malihe and Aminnaseri, Moin and Bitaab, Marzieh and Brahman, Faeze and Ghazarian, Sarik and others},
year={2020}
journal = {arXiv e-prints},
eprint = {2012.06154},
}



