five

abdoelsayed/Open-ArabicaQA

收藏
Hugging Face2024-03-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/abdoelsayed/Open-ArabicaQA
下载链接
链接失效反馈
官方服务:
资源简介:
ArabicaQA是一个为支持和发展阿拉伯语问答系统而设计的全面数据集。它涵盖了多种问题类型,包括机器阅读理解(MRC)和开放领域问题,旨在促进阿拉伯语问答模型的训练、验证和测试。数据集包含训练集、验证集和测试集,具体数量如下:MRC(有答案)训练集62,186条,验证集13,483条,测试集13,426条;MRC(无答案)训练集2,596条,验证集561条,测试集544条;开放领域训练集62,057条,验证集13,475条,测试集13,414条;以及另一组开放领域训练集58,528条,验证集12,541条,测试集12,541条。

ArabicaQA是一个为支持和发展阿拉伯语问答系统而设计的全面数据集。它涵盖了多种问题类型,包括机器阅读理解(MRC)和开放领域问题,旨在促进阿拉伯语问答模型的训练、验证和测试。数据集包含训练集、验证集和测试集,具体数量如下:MRC(有答案)训练集62,186条,验证集13,483条,测试集13,426条;MRC(无答案)训练集2,596条,验证集561条,测试集544条;开放领域训练集62,057条,验证集13,475条,测试集13,414条;以及另一组开放领域训练集58,528条,验证集12,541条,测试集12,541条。
提供机构:
abdoelsayed
原始信息汇总

ArabicaQA 数据集概述

数据集基本信息

  • 数据集名称: ArabicaQA
  • 数据集描述: 一个全面的阿拉伯语问答数据集,支持阿拉伯语问答系统的发展。
  • 数据集类型: 问答数据集
  • 任务类别: 问答(Question Answering)
  • 语言: 阿拉伯语(ar)
  • 数据集大小: 10K<n<100K
  • 许可证: MIT
  • 数据创建者: 众包(crowdsourced)和发现(found)

数据集详细信息

  • 数据集结构: 包含训练集、验证集和测试集。
  • 数据统计:
    训练集 验证集 测试集
    MRC(有答案) 62,186 13,483 13,426
    MRC(不可回答) 2,596 561 544
    开放领域(Open-Domain) 62,057 13,475 13,414
    开放领域(Open-Domain) 58,528 12,541 12,541

引用信息

  • 论文标题: ArabicaQA: A Comprehensive Dataset for Arabic Question Answering
  • 作者: Abdelrahman Abdallah, Mahmoud Kasem, Mahmoud Abdalla, Mohamed Mahmoud, Mohamed Elkasaby, Yasser Elbendary, Adam Jatowt
  • 年份: 2024
  • arXiv编号: 2403.17848
  • 主要类别: cs.CL
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作