five

masakhane/afriqa-gold-passages

收藏
Hugging Face2024-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/masakhane/afriqa-gold-passages
下载链接
链接失效反馈
官方服务:
资源简介:
AfriQA是第一个专注于非洲语言的跨语言问答(QA)数据集。该数据集包含超过12,000个跨10种非洲语言的问答示例,是开发更公平的问答技术的宝贵资源。数据集的结构包括训练集、验证集和测试集,涵盖了Bemba、Fon、Hausa、Igbo、Kinyarwanda、Swahili、Twi、Wolof、Yorùbá和Zulu等语言。数据集的创建目的是为自然语言处理领域提供资源,特别是针对那些在NLP领域资源不足的非洲语言。
提供机构:
masakhane
原始信息汇总

数据集概述

数据集名称

  • 名称: AfriQA
  • 别名: 无

数据集描述

  • 概述: AfriQA 是首个专注于非洲语言的跨语言问答(QA)数据集,包含超过12,000个跨语言QA示例,涵盖10种非洲语言。
  • 语言: 数据集支持以下语言:Bemba (bem), Fon (fon), Hausa (hau), Igbo (ibo), Kinyarwanda (kin), Swahili (swa), Twi (twi), Wolof (wol), Yorùbá (yor), Zulu (zul)。
  • 任务: 主要支持问答任务,性能通过F1分数和精确匹配准确度进行衡量。

数据集结构

  • 数据实例: 每个数据实例包括问题ID、非洲语言问题、翻译问题、答案、数据点语言、数据集分割、翻译答案和翻译类型。
  • 数据分割: 数据集分为训练、验证和测试集,每种语言的分割大小不同,总训练集大小为4333,验证集为4346,测试集为3560。

数据集创建

  • 目的: 为10种服务不足的自然语言处理语言引入问答资源。
  • 注释者: 注释者来自Masakhane组织。

使用考虑

  • 限制: 数据集仅包含新闻文本,可能限制了开发系统的应用范围。

附加信息

  • 许可证: 数据集采用CC 4.0非商业许可证。
  • 引用信息: 提供了BibTex格式的引用信息。
  • 贡献者: 感谢@ToluClassics添加此数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作