QCRI/OASIS
收藏Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/QCRI/OASIS
下载链接
链接失效反馈官方服务:
资源简介:
OASIS是一个大规模的多语言和多模态数据集,专注于文化和视觉问答。它旨在评估多模态模型在对象识别之外的能力,特别是在现实场景中的实用、常识和文化基础推理。数据集包含约92万张真实图像、1480万个问答对、370万个语音问题、383小时的人类录音和2万小时的语音克隆数据,覆盖英语和阿拉伯语的18个国家的多种变体。OASIS支持文本、语音、图像及其组合的多种输入设置,适用于多语言和多模态问答、文化基础推理等研究。
OASIS is a large-scale culturally grounded multimodal question answering dataset covering images, text, and speech. It is designed to evaluate multimodal models beyond object recognition, with emphasis on pragmatic, commonsense, and culturally grounded reasoning in real-world scenarios. The dataset contains approximately 0.92M real images, 14.8M QA pairs, 3.7M spoken questions, 383 hours of human-recorded speech, and 20K hours of voice-cloned speech, covering English and Arabic varieties across 18 countries. OASIS supports four input settings: text-only, speech-only, text + image, and speech + image, and is intended for research on multimodal and multilingual question answering, culturally grounded reasoning, and more.
提供机构:
QCRI
搜集汇总
数据集介绍

构建方式
OASIS数据集基于EMQA这一可扩展的半自动化框架构建而成,该框架专为创建本地化的口语与视觉问答资源而设计。在构建过程中,数据集经历了多阶段人类参与的循环验证机制,以确保生成内容的文化适配性与语义准确性。通过结合自动化生成与人工校验,数据集最终囊括了约92万张真实图像、1480万问答对以及370万口语问题,并涵盖了来自42位说话人的383小时人类录音与2万小时语音克隆数据,覆盖了18个国家的英语与阿拉伯语变体。
使用方法
OASIS数据集主要面向多模态与多语言问答、口语视觉问答及文化根基推理等前沿研究方向。研究者可直接利用其提供的文本、图像与语音数据,构建或微调多模态模型,并基于四种输入设定进行公平的性能评估。数据集还附带了针对闭源、开源及微调模型的基准评测结果,便于研究者进行横向比较。由于数据集采用CC BY-NC-SA 4.0许可协议,用户需遵守非商业用途与共享条款,并通过申请获取数据访问权限。
背景与挑战
背景概述
OASIS数据集由Firoj Alam等研究人员于2025年构建,旨在弥补大规模多模态模型在文化常识推理与低资源语言场景下的显著不足。现有视觉问答(VQA)基准多聚焦于物体识别,难以应对蕴含文化背景与日常知识的多模态查询,尤其在阿拉伯语等资源匮乏语言的语音交互环境中表现欠佳。OASIS通过覆盖18个国家、涵盖英语及现代标准阿拉伯语与多种方言的丰富语料,系统性地引入了文化根基式推理需求,推动了多模态问答研究从视觉感知向文化认知的范式跃迁。该数据集包含约92万张真实图像、1480万问答对及383小时人工录音,已成为评估闭源与开源模型在跨语言文化理解能力上的重要基准。
当前挑战
OASIS数据集的核心挑战在于解决多模态模型对文化常识与日常知识的深度理解瓶颈。现有模型在面向阿拉伯语方言的语音视觉问答任务中表现脆弱,难以将图像中的文化符号与当地社会规范、隐喻表达建立关联,暴露出跨语言语义对齐与情境化推理的脆弱性。构建过程中,数据需通过EMQA半自动框架与多阶段人工验证循环,以平衡14.8万问答对的语料规模与地域文化特异性——这要求标注者兼具语言学直觉与本土文化素养,同时保证语音克隆质量与真实录音的自然性,从而在18国语言变体间维系文化表征的深度与广度。
常用场景
经典使用场景
在跨语言与跨模态智能推理的研究浪潮中,OASIS数据集为多语言文化导向的视觉问答任务提供了前所未有的支撑。其经典使用场景集中于将图像、文本与语音三者深度融合,构建涵盖英语与多种阿拉伯语方言的问答对。研究人员可借助该数据集,在视觉特征与语言表达之间建立文化敏感的映射关系,测试模型在图像理解与口语理解双通道上的协同推理能力,尤其是在日常场景中涉及常识与语用知识的复杂查询。
解决学术问题
当前大规模多模态模型在处理需要文化背景与地域知识的视觉问题时表现乏力,尤其在低资源语言场景中,模型往往仅能完成物体识别而无法进行深层次的推理。OASIS数据集精准回应了这一核心难题,通过构建覆盖18个国家、包含口语变体与标准语的语义对齐资源,为学术界提供了系统评估模型在文化语境推理、多语言多模态联合理解上的标准化基准。其影响深远,打破了主流评测对高资源语言的依赖,推动了更具包容性与普适性的多模态智能研究范式。
实际应用
在实际应用层面,OASIS数据集赋能了诸多跨语言智能服务系统的构建与优化。它可以用于开发面向阿拉伯语区域的文化感知智能助手,支持用户以语音或文字方式提交与日常生活紧密相关的视觉查询,如地标识别、习俗理解或本地商品辨识。此外,该数据集还可应用于教育领域中的多语言多模态互动式学习工具,辅助非母语学习者通过图像与语音的结合更直观地掌握外语知识与文化背景,提升跨文化交流的智能化水平。
数据集最近研究
最新研究方向
当前,多模态大模型在视觉问答任务中虽已取得显著进展,但其在低资源语言及跨文化场景下的常识推理与语用理解能力仍显薄弱。OASIS数据集应运而生,通过覆盖18个国家的英语与阿拉伯语变体,囊括约92万张真实图像、1480万问答对及383小时人工语音数据,并引入语音克隆技术扩展至2万小时语音资源,开创性地构建了大规模多语言多模态文化扎根型视觉问答基准。该数据集不仅支持文本、语音、图像及多模态混合输入,更聚焦于日常场景中的文化常识与语用推理评估,为检验闭源与开源大模型在真实世界跨文化环境下的泛化能力提供了关键测试平台,对推动多模态人工智能的包容性与公平性具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



