EXAMS-V

Name: EXAMS-V
Creator: MBZUAI
Published: 2025-09-24 21:41:04
License: 暂无描述

arXiv2025-09-24 更新2025-09-26 收录

下载链接：

https://huggingface.co/datasets/Shoir/Scientific_VQA

下载链接

链接失效反馈

官方服务：

资源简介：

EXAMS-V 是一个多语言多模态基准数据集，包含来自多个国家的国家考试中收集的 20,932 个多项选择题。该数据集包含两种数据格式：15,846 个纯文本和 5,086 个文本和视觉。数据集的创建过程涉及从多个数据集中收集和合成科学相关的文本和图像对，以创建统一的文本和图像实例。该数据集旨在解决科学视觉问答任务中的挑战，通过将视觉和文本内容嵌入单个图像中，评估模型在真实条件下的性能。

提供机构：

MBZUAI

创建时间：

2025-09-24

原始信息汇总

Scientific_VQA数据集概述

数据集基本信息

数据集名称: Scientific_VQA
存储位置: https://huggingface.co/datasets/Shoir/Scientific_VQA
数据量: 1,226,721,149.8字节
下载大小: 1,099,906,068字节
样本数量: 6,968条

数据结构

数据特征

image: 图像数据
status: 字符串类型
question_text: 字符串类型
question: 字符串类型
backround_description: 字符串类型
answer_text: 字符串类型
new_answer_text: 字符串类型
options: 字符串类型
new_options_format: 字符串类型
level: 字符串类型
language: 字符串类型
subject: 字符串类型
subject_category: 字符串类型
font: 字符串类型
colour: 字符串类型

数据划分

训练集: 包含6,968个样本，大小为1,226,721,149.8字节

配置信息

默认配置: 数据文件路径为data/train-*

搜集汇总

数据集介绍

构建方式

在科学视觉问答领域，数据集的构建方式直接影响模型对多模态信息的理解能力。EXAMS-V数据集通过整合来自多个国家的标准化考试题目，构建了一个包含20,932道多选题的多语言多模态基准。其训练集和测试集分别包含16.5K和4.8K个实例，覆盖15种语言。数据采集自五个独立的科学VQA数据集（M3EXAM、CMMU、M4U、MMMU-PRO和Pinocchio），通过将分离的图像和文本内容合成为统一的“图中文本”格式，模拟真实考试场景中的图文混合呈现方式。

特点

该数据集最显著的特点在于其创新的“图中文本”设计，将问题与选项直接嵌入科学图表中，突破了传统多模态数据中视觉与文本分离处理的局限。这种格式更贴近实际应用场景，如数字化考试截图或教材插图，要求模型具备联合理解视觉内容与嵌入式文本的能力。数据集涵盖物理、化学、生物等多个科学学科，且支持包括中文、英语、意大利语和德语在内的多语言评估，为研究跨语言迁移提供了丰富样本。

使用方法

使用EXAMS-V数据集时，研究者可将其作为评估视觉语言模型在科学VQA任务中零样本或微调性能的基准。数据集支持两种评估模式：纯文本图像和图文混合图像。典型流程包括加载统一格式的图像输入，通过预训练模型（如PaLIGemma）进行多模态推理，并生成多选题答案。为提升模型性能，可结合其训练集进行任务特定微调，或利用合成数据增强策略扩展训练样本，尤其适用于研究多语言场景下的跨模态推理能力。

背景与挑战

背景概述

EXAMS-V数据集由Das等人于2024年提出，作为科学视觉问答领域的一项创新性基准。该数据集源自多国国家级考试，涵盖物理、化学、生物等多学科内容，共包含20,932道多选题，其中训练集16.5K实例、测试集4.8K实例，支持包括中文、英语、意大利语等在内的15种语言。其核心创新在于将图像与文本（如题目和选项）融合为单一图像输入，模拟真实考试场景中的截图或教材插图形式，为评估视觉语言模型在复杂科学图表与嵌入式文本联合推理能力提供了更贴近实际应用的测试平台。

当前挑战

EXAMS-V面临的挑战主要体现在两方面：其一，在领域问题层面，科学视觉问答需解决多模态推理的复杂性，尤其是对嵌入式文本的精准解析与视觉内容的协同理解，现有模型在零样本设置下表现不佳，凸显了任务特定微调的必要性；其二，在构建过程中，文本嵌入图像格式的数据稀缺性成为主要障碍，原始训练集平均每种语言仅1,415个样本，需通过合成数据增强策略将分离的图文对转化为统一图像，同时需平衡多语言数据分布与跨语言泛化能力。

常用场景

经典使用场景

在科学视觉问答研究领域，EXAMS-V数据集通过将问题和答案选项嵌入图像内部，模拟了真实考试场景中的文本-图像一体化格式。这种设计使得模型必须同时解析视觉内容（如电路图、化学方程式）和嵌入的文本信息，从而评估模型在复杂科学图表上的多模态推理能力。该数据集覆盖物理、化学、生物学等学科，其经典使用场景包括对多语言科学考试题目的零样本评估，以及针对文本嵌入图像格式的模型微调实验。

解决学术问题

EXAMS-V有效解决了科学视觉问答中模态分离与真实应用场景不匹配的学术问题。传统数据集将图像与文本作为独立输入，而实际场景（如教材插图、考试截图）常需要模型直接处理文本嵌入图像。该数据集通过统一模态的构建方式，推动了视觉语言模型在OCR能力与多模态联合推理方面的研究，尤其针对多语言科学知识的理解与迁移学习提供了基准验证，填补了文本嵌入图像格式评估体系的空白。

衍生相关工作

EXAMS-V催生了多项针对文本嵌入图像任务的创新研究。例如，基于该数据集的数据增强策略研究通过合成文本-图像对（如从M3EXAM、CMMU等数据集转化），显著提升了PaliGemma等轻量级模型的多语言性能。后续工作进一步探索了跨语言迁移机制，发现多语言联合训练能提升德语、意大利语等低资源语言的推理准确率，相关成果为合成数据在科学VQA领域的有效性提供了实证支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集