five

Afri-MCQA

收藏
arXiv2026-01-09 更新2026-01-13 收录
下载链接:
https://huggingface.co/datasets/Atnafu/Afri-MCQA
下载链接
链接失效反馈
官方服务:
资源简介:
Afri-MCQA是由MBZUAI等跨国研究团队构建的首个非洲多模态文化问答基准,涵盖12个国家15种语言的7500个平行问答对。数据集包含文本与语音双模态数据,每个语言约500个图像锚定样本,由母语者完成文化相关问题的标注与音频录制。其创新性体现在覆盖非洲本土语言多样性,通过严格的质量控制流程(包括两阶段标注审核)确保数据可靠性,旨在评估AI模型对非洲文化语境的多模态理解能力,推动包容性语音优先AI技术的发展。

Afri-MCQA is the first African multimodal cultural question answering benchmark constructed by an international research collaboration including MBZUAI. It contains 7,500 parallel question-answer pairs covering 15 languages from 12 countries. The dataset features dual modalities of text and speech, with approximately 500 image-anchored samples per language. All culture-related question annotations and audio recordings are completed by native speakers. Its core innovation lies in covering the linguistic diversity of African indigenous languages, and it ensures data reliability through a strict quality control process that includes two-stage annotation audits. This benchmark is designed to evaluate the multimodal understanding abilities of AI models within African cultural contexts, and to promote the development of inclusive speech-first AI technologies.
提供机构:
MBZUAI; AI4Bharat, 印度理工学院马德拉斯分校; 萨尔兰大学; 阿斯顿大学; 亚的斯亚贝巴大学; Lesan AI; Independent; 弗里德里希-亚历山大大学; 比勒陀利亚大学; 明尼苏达大学双城分校; Lelapa AI; 茨瓦内理工大学; 卡巴莱大学; 博茨瓦纳大学; 麦吉尔大学·Mila & 加拿大CIFAR人工智能主席
创建时间:
2026-01-09
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Afri-MCQA
  • 数据集地址: https://huggingface.co/datasets/Atnafu/Afri-MCQA

数据集结构

该数据集包含多个配置,每个配置对应一种非洲语言,并分为开发集(dev)和测试集(test)。

语言配置

数据集涵盖以下语言配置:

  1. Akan_Twi
  2. Amharic
  3. Chichewa
  4. Hausa
  5. Igbo
  6. Kikuyu
  7. Kinyarwanda
  8. Lingala

数据划分

每个语言配置包含两个数据划分:

  • 开发集 (dev): 用于模型开发与验证。
  • 测试集 (test): 用于最终评估。

数据特征

所有配置共享一组核心特征,但开发集和测试集在选项字段的命名上略有不同。

通用特征

  • ID: 样本唯一标识符(字符串)。
  • Country: 国家信息(字符串)。
  • Language: 语言信息(字符串)。
  • Category: 问题类别(字符串)。
  • self_made: 标识问题是否为自制(字符串)。
  • eng_question: 英语问题文本(字符串)。
  • native_question: 本地语言问题文本(字符串)。
  • image: 关联图像(图像类型)。

音频特征

  • eng_audio_question: 英语问题音频(音频类型)。
  • native_audio_question: 本地语言问题音频(音频类型)。
  • 开发集特有音频特征:
    • eng_audio_correct
    • eng_audio_wrong_o1
    • eng_audio_wrong_o2
    • eng_audio_wrong_o3
    • native_audio_correct
    • native_audio_wrong_o1
    • native_audio_wrong_o2
    • native_audio_wrong_o3
  • 测试集特有音频特征:
    • eng_audio_option_1
    • eng_audio_option_2
    • eng_audio_option_3
    • eng_audio_option_4
    • native_audio_option_1
    • native_audio_option_2
    • native_audio_option_3
    • native_audio_option_4

开发集特有文本特征

  • correct_en: 英语正确答案(字符串)。
  • wrong_en_o1: 英语错误选项1(字符串)。
  • wrong_en_o2: 英语错误选项2(字符串)。
  • wrong_en_o3: 英语错误选项3(字符串)。
  • correct_native: 本地语言正确答案(字符串)。
  • wrong_native_o1: 本地语言错误选项1(字符串)。
  • wrong_native_o2: 本地语言错误选项2(字符串)。
  • wrong_native_o3: 本地语言错误选项3(字符串)。

测试集特有文本特征

  • en_option_1: 英语选项1(字符串)。
  • en_option_2: 英语选项2(字符串)。
  • en_option_3: 英语选项3(字符串)。
  • en_option_4: 英语选项4(字符串)。
  • native_option_1: 本地语言选项1(字符串)。
  • native_option_2: 本地语言选项2(字符串)。
  • native_option_3: 本地语言选项3(字符串)。
  • native_option_4: 本地语言选项4(字符串)。

数据规模

下表列出了每个语言配置的开发集和测试集的样本数量和大小。

语言配置 划分 样本数量 数据集大小 (字节) 下载大小 (字节)
Akan_Twi dev 214 110,426,807 80,575,654
test 322 157,566,211 113,515,756
Amharic dev 199 426,146,956 398,654,942
test 300 631,657,714 590,505,175
Chichewa dev 200 285,268,884 232,164,369
test 301 444,714,379 365,386,093
Hausa dev 199 245,930,133 219,927,956
test 300 353,355,003 313,014,801
Igbo dev 199 227,186,150 196,030,319
test 299 288,929,672 241,348,317
Kikuyu dev 194 64,481,028 50,707,035
test 292 101,465,616 79,762,785
Kinyarwanda dev 200 200,963,210 177,811,269
test 300 300,921,080 267,273,955
Lingala dev 198 101,014,555 76,606,773
test 信息不完整 信息不完整 信息不完整
搜集汇总
数据集介绍
main_image_url
构建方式
在构建Afri-MCQA数据集的过程中,研究团队采用了严格的多阶段人工标注流程,以确保数据的文化真实性与语言准确性。首先,团队从撒哈拉以南非洲地区选取了15种广泛使用的语言,覆盖12个国家,并依据语言流利度、标注经验及居住地等标准,通过专业平台招募了以这些语言为母语的标注者。数据收集分为两个阶段:初始的培训与筛选阶段旨在确保标注者充分理解任务要求,仅质量达标的标注者进入主标注阶段。在主标注阶段,每位标注者需为每张图像创作至多三个基于图像的多选题对,问题需同时以英语和母语撰写,并涵盖复杂的推理要素。此外,所有问题与选项均需由标注者录制相应的母语及带非洲口音的英语音频。为确保质量,团队为每种语言配备了经验丰富的语言协调员,对所有提交内容进行多轮审核,重点核查语言准确性、文化恰当性及音频质量,从而构建了一个包含约7500个高质量、多模态并行问答对的数据集。
特点
Afri-MCQA数据集的核心特点在于其开创性地将文化特异性、多语言支持与多模态融合相结合,为评估人工智能系统在非洲语境下的能力设立了新基准。该数据集覆盖了15种非洲语言,这些语言在形态、声调及动词结构等方面与高资源语言存在显著差异,且许多语言以口语为主,这使得数据集对语音模态的纳入尤为关键。每个数据点均包含一张文化相关的图像,以及与之对应的并行文本与音频问答对,涵盖了英语和母语两种形式。问题设计旨在评估模型对非洲文化知识的视觉推理能力,而非简单的物体识别。此外,数据集通过精心设计的控制实验,能够区分模型在语言理解与文化知识方面的局限。其规模、语言多样性以及对文本与语音模态的同等重视,使其成为当前针对非洲语言最全面、最具挑战性的多模态文化问答评测资源。
使用方法
Afri-MCQA数据集主要作为评测基准,用于系统评估多模态大语言模型在非洲文化语境下的理解与推理能力。研究者可利用该数据集进行零样本或少样本评估,通过对比模型在英语与非洲母语查询、文本与语音输入、以及多项选择与开放式问答等多种设置下的表现,深入分析模型存在的局限。具体而言,评估可围绕四个核心研究问题展开:模型对非洲文化视觉场景的理解程度、输入模态(文本vs.语音)对性能的影响、查询语言(母语vs.英语)所反映的语言理解与文化知识差距,以及任务格式(选择题vs.开放式问答)带来的准确性差异。数据集的并行特性使得研究者能够进行严格的跨语言与跨模态对比分析。此外,其附带的控制实验数据可用于辅助诊断模型失败的根本原因,究竟是源于基础的语言语音处理缺陷,还是特定的文化知识匮乏,从而为开发更具文化包容性的多模态AI系统提供明确的改进方向。
背景与挑战
背景概述
非洲大陆拥有全球超过三分之一的语言,但在人工智能研究领域长期处于代表不足的状态。为应对这一挑战,由MBZUAI、AI4Bharat、萨尔兰大学等十余家国际机构的研究人员于2026年联合创建了Afri-MCQA数据集。该数据集是首个面向非洲语言的大规模多模态文化问答基准,核心研究问题在于评估现有多模态大语言模型对非洲多样化文化语境的理解与推理能力。它涵盖了来自12个国家的15种非洲语言,包含约7500个并行文本与语音问答对,全部由母语者标注生成。Afri-MCQA的发布为衡量和推动人工智能系统在低资源语言与文化背景下的包容性发展提供了关键评估工具,对促进全球人工智能研究的文化多样性具有重要意义。
当前挑战
Afri-MCQA致力于解决的核心领域挑战是多模态文化视觉问答,旨在测试模型在结合图像、文本及语音输入时,对非洲特定文化知识的理解能力。构建该数据集的过程面临多重挑战:首要在于确保文化表征的真实性与深度,需要母语者精心设计涉及本地习俗、传统、日常物品等复杂且需文化背景知识的问题,避免浅层或刻板印象。其次,在技术层面,需同步采集高质量的文本与语音数据,并确保十五种语言在语音录制、转写及与文本对齐时保持一致性,这对协调分布于多国的标注者提出了极高要求。此外,数据集的构建还需克服非洲语言资源稀缺、语言学特征多样(如丰富的形态变化、声调)以及部分语言主要依靠口语传播所带来的独特困难。
常用场景
经典使用场景
在跨模态人工智能领域,Afri-MCQA数据集最经典的使用场景是作为评估多模态大语言模型在非洲语言和文化背景下理解能力的基准。该数据集通过结合图像、文本和语音三种模态,构建了以文化知识为核心的视觉问答任务。研究者利用其平行的英语与非洲本土语言问答对,能够系统性地测试模型在跨语言、跨模态情境下的推理表现,特别是在处理富含形态学特征和声调变化的非洲语言时,模型是否具备足够的语言适应性与文化感知力。
实际应用
在实际应用层面,Afri-MCQA为开发面向非洲社区的多语言、多模态人工智能系统提供了重要基础。该数据集支持的语音问答能力特别适用于识字率较低或主要依赖口语交流的地区,能够促进教育辅助、文化传承、本地化信息服务等应用场景的发展。例如,基于该数据集训练的模型可以协助构建能够理解非洲传统服饰、地方饮食、民俗活动等文化元素的智能助手,为医疗、农业、旅游等领域提供更符合当地语境的多模态交互服务,切实推动技术包容性发展。
衍生相关工作
Afri-MCQA的发布催生了一系列关注非洲语言多模态评估的延伸研究。在基准构建方面,其方法论影响了后续如WorldCuisines等跨文化视觉问答数据集的创建范式。在模型评估领域,该数据集揭示的性能差距促使研究者开发针对非洲语言的语音增强训练技术,例如改进的端到端语音识别架构与文化感知的视觉-语言对齐方法。同时,其控制实验设计启发了对AfriXNLI、AfriMMLU等文本基准与多模态任务关联性的深入分析,推动了低资源语言多模态评估范式的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作