five

persiannlp/parsinlu_reading_comprehension

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/persiannlp/parsinlu_reading_comprehension
下载链接
链接失效反馈
官方服务:
资源简介:
PersiNLU数据集是一个用于波斯语阅读理解任务的数据集,包含从Google自动完成中提取的问题,并由母语者手动注释答案和相应的证据文档。数据集的结构包括问题、段落、URL和答案字段,数据分为训练集和测试集,分别包含600和575个样本。数据集的创建过程涉及通过Google自动完成收集问题,并由母语者进行注释。数据集的语言为波斯语,采用CC BY-NC-SA 4.0许可证。
提供机构:
persiannlp
原始信息汇总

数据集概述

  • 名称: PersiNLU (Reading Comprehension)
  • 语言: 波斯语 (fa)
  • 许可证: CC BY-NC-SA 4.0
  • 数据集大小: 1K<n<10K
  • 任务类别: 问答 (extractive-qa)
  • 数据来源: 扩展自维基百科和谷歌
  • 注释创建者: 专家生成
  • 语言创建者: 专家生成

数据集结构

数据实例

  • 问题 (question): 使用谷歌自动完成挖掘的问题。
  • 段落 (passage): 包含答案的段落。
  • URL (url): 挖掘段落的网址。
  • 答案 (answers): 包含答案文本及其起始索引的列表。

数据字段

  • question: 问题文本。
  • passage: 段落文本。
  • url: 段落来源的网址。
  • answers: 答案列表,每个答案包含answer_textanswer_start

数据分割

  • 训练/测试分割: 600/575样本。

数据集创建

注释过程

  • 问题通过谷歌自动完成收集。
  • 答案由母语者手动标注。

许可证信息

  • 数据集遵循CC BY-NC-SA 4.0许可证。

引用信息

bibtex @article{huggingface:dataset, title = {ParsiNLU: A Suite of Language Understanding Challenges for Persian}, authors = {Khashabi, Daniel and Cohan, Arman and Shakeri, Siamak and Hosseini, Pedram and Pezeshkpour, Pouya and Alikhani, Malihe and Aminnaseri, Moin and Bitaab, Marzieh and Brahman, Faeze and Ghazarian, Sarik and others}, year={2020} journal = {arXiv e-prints}, eprint = {2012.06154},
}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作