masakhane/afriqa
收藏Hugging Face2023-07-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/masakhane/afriqa
下载链接
链接失效反馈官方服务:
资源简介:
AfriQA是首个专注于非洲语言的跨语言问答(QA)数据集,包含10种非洲语言的超过12,000个问答示例。该数据集旨在为自然语言处理中服务不足的非洲语言提供问答资源,支持的任务包括问答,并提供了详细的语言列表和数据结构信息。
提供机构:
masakhane
原始信息汇总
AfriQA数据集概述
数据集描述
- 数据集名称: AfriQA
- 数据集简介: AfriQA是首个专注于非洲语言的跨语言问答(QA)数据集,包含超过12,000个跨语言QA示例,涵盖10种非洲语言。
- 语言: 数据集支持以下10种语言:
- Bemba (bem)
- Fon (fon)
- Hausa (hau)
- Igbo (ibo)
- Kinyarwanda (kin)
- Swahili (swa)
- Twi (twi)
- Wolof (wol)
- Yorùbá (yor)
- Zulu (zul)
数据集结构
-
数据实例格式: 每个数据实例包含以下字段:
- id: 问题ID
- question: 非洲语言的问题
- translated_question: 问题翻译成枢纽语言(英语/法语)
- answers: 非洲语言的答案
- lang: 数据点的语言(非洲语言)
- split: 数据集分割
- translated_answer: 枢纽语言的答案
- translation_type: 问题和答案的翻译类型
-
数据分割: 数据集分为训练集、验证集和测试集,具体大小如下:
语言 训练集 验证集 测试集 Bemba 502 503 314 Fon 427 428 386 Hausa 435 436 300 Igbo 417 418 409 Kinyarwanda 407 409 347 Swahili 415 417 302 Twi 451 452 490 Wolof 503 504 334 Yoruba 360 361 332 Zulu 387 388 325 总计 4333 4346 3560
数据集使用注意事项
- 数据集限制: 数据集仅包含新闻文本,这可能限制了开发系统的应用领域。
许可证信息
- 许可证: CC 4.0 Non-Commercial
搜集汇总
数据集介绍

背景与挑战
背景概述
AfriQA是首个专注于非洲语言的跨语言问答数据集,包含超过12,000个问答示例,涵盖10种非洲语言,如Bemba、Fon、Hausa等,旨在为自然语言处理提供资源以促进技术公平性。数据集提供训练、验证和测试分割,支持问答任务,并基于CC BY-SA 4.0许可证发布,适用于研究和开发跨语言QA系统。
以上内容由遇见数据集搜集并总结生成



