ViExam

github2025-08-20 更新2025-08-22 收录

下载链接：

https://github.com/vytuongdang/ViExam

下载链接

链接失效反馈

官方服务：

资源简介：

ViExam是首个全面的越南语多模态考试基准数据集，包含2,548个跨7个学术领域的多模态问题，旨在评估视觉语言模型在整合文本-视觉内容方面的推理能力。数据集包含数学、物理、化学、生物、地理、驾驶测试和智商测试等领域的问题，每个问题都是包含越南语文本和视觉元素（如图表、图解）的图像，大多数为4选项选择题

ViExam is the first comprehensive Vietnamese multimodal exam benchmark dataset, containing 2,548 multimodal questions spanning 7 academic disciplines. It is designed to evaluate the reasoning capabilities of vision-language models when integrating text and visual content. The dataset includes questions from fields such as mathematics, physics, chemistry, biology, geography, driving tests, and IQ tests. Each question is presented as an image containing Vietnamese text and visual elements like charts and diagrams, with most being four-option multiple-choice questions.

创建时间：

2025-08-15

原始信息汇总

ViExam 数据集概述

数据集简介

ViExam 是首个全面的越南语多模态考试基准数据集，包含 2,548 个多模态问题，涵盖 7 个学术领域。该数据集专门用于评估视觉语言模型（VLMs）在越南语多模态教育内容上的表现。

数据集规模

学科领域	问题数量
数学	456
物理	361
化学	302
生物	341
地理	481
驾驶考试	367
IQ测试	240
总计	2,548

数据特征

多模态性质：每个问题都是包含越南语文本和视觉元素（图表、插图、图形）的图像
问题格式：大多数为4选项多项选择题
排除纯文本问题：不包含任何纯文本问题的截图
多分辨率：问题图像具有多种分辨率

学科领域详情

学术科目（任务1-5）

数学：函数分析、微积分、几何（456题）
物理：力学、波动、热力学（361题）
化学：有机化学、电化学（302题）
生物：遗传学、分子生物学（341题）
地理：数据可视化、经济地理（481题）

实践评估（任务6-7）

驾驶考试：交通规则、道路标志、安全场景（367题）
IQ测试：模式识别、逻辑推理（240题）

关键性能指标

VLMs平均准确率：57.74%
越南考生平均准确率：66.54%
最佳VLM（o3）准确率：74.07%
人类最佳表现：99.60%

数据集获取

推荐方式：通过 Hugging Face 下载完整数据集

访问地址：https://huggingface.co/datasets/anvo25/viexam
包含完整图像和标注信息

技术特点

强OCR性能：VLMs在越南语文本识别上表现良好（6% CER 和 9% WER）
跨语言提示：使用英语指令保持越南语内容时，性能下降1个百分点
人机协作：人类参与循环协作可将VLM性能提高5个百分点

评估结果

性能差距：SOTA VLMs在7个领域平均准确率仅为57%
地理最易：72%准确率
物理最难：44%准确率
选项B偏差：VLMs对选项B表现出显著偏见（31%）
开源差距：开源VLMs性能显著低于闭源/SOTA VLMs（27.7% vs. 57%）

相关资源

项目页面：https://vi-exam.github.io/
研究论文：https://arxiv.org/abs/2508.13680
代码仓库：https://github.com/vytuongdang/ViExam

搜集汇总

数据集介绍

构建方式

在越南多模态教育评估领域，ViExam数据集通过系统化的构建流程实现了高质量数据采集。研究团队从七个学科领域的原始考试材料中提取了2548道多模态试题，每道题目均包含越南语文本与视觉元素的有机结合。构建过程采用PDF转图像技术实现数字化处理，结合光学字符识别技术提取文本内容，并通过人工校验确保语言与视觉信息的精确对齐。所有试题均经过严格的边界检测和质量控制流程，最终形成包含完整元数据标注的标准化评估基准。

特点

该数据集呈现出显著的多模态与跨学科特征，覆盖数学、物理、化学、生物、地理等学术科目及驾驶测试、智商测试等实践评估领域。每道试题均要求模型同时理解越南语文本和图表、插图等视觉信息，体现了真正的多模态挑战。数据集具有精确的学术分级特性，不同学科领域的试题难度分布反映了越南教育体系的实际评估标准。特别值得注意的是，数据集完全避免了纯文本截屏题目，确保所有问题都需要视觉语言理解能力，这为评估模型的多模态推理能力提供了可靠基准。

使用方法

研究人员可通过Hugging Face平台直接获取完整的预构建数据集，快速开展模型评估工作。数据集支持批量处理与单模型测试两种模式，用户可通过提供的API代码库调用主流视觉语言模型进行自动化评估。评估过程支持越南语和英语两种提示语言，便于开展跨语言性能对比研究。数据集还提供人工介入工具链，包括问题筛选界面、OCR验证系统和质量检查模块，支持人机协作研究范式的实施。结果分析脚本可自动计算各学科领域的准确率指标，为模型性能提供细粒度的评估报告。

背景与挑战

背景概述

越南多模态考试基准数据集ViExam由韩国科学技术院（KAIST）研究团队于2025年创建，旨在填补视觉语言模型在低资源语言教育内容评估方面的研究空白。该数据集涵盖数学、物理、化学、生物、地理、驾驶测试和智商测试等7个学术领域，共包含2548道融合越南语文本与视觉元素的多模态试题。作为首个系统评估视觉语言模型在越南教育场景下多模态理解能力的基准，ViExam为跨语言多模态推理研究提供了重要实证基础，推动了非英语语境下人工智能教育评估体系的发展。

当前挑战

该数据集核心挑战在于解决越南语多模态教育内容的理解难题，包括视觉语言模型对图表、公式和专业术语的跨模态对齐能力不足，以及在低资源语言环境下语义推理的局限性。构建过程中面临多重技术挑战：需从原始PDF文档中精确提取图文混合内容，确保越南语OCR识别的准确性，同时维护不同学科专业符号的完整性。此外，数据集需平衡各学科题目分布，保证评估的全面性和代表性，这对多模态数据标注和质量控制提出了极高要求。

常用场景

经典使用场景

在越南多模态教育评估领域，ViExam数据集为视觉语言模型提供了标准化的基准测试平台。该数据集包含数学、物理、化学等七个学科的2548道多模态试题，每道题目均融合了越南语文本与图表、示意图等视觉元素，要求模型同时处理语言信息和视觉信息进行综合推理。研究人员通过该数据集能够系统评估模型在真实教育场景下的多模态理解能力，特别是在低资源语言环境中的表现。

实际应用

在实际应用层面，ViExam数据集为越南教育科技发展提供了重要支撑。该数据集可直接用于智能教育系统的开发，如自动化答题辅导、个性化学习推荐等场景。特别是在驾驶理论测试和IQ测试等实践性评估中，模型的多模态理解能力直接关系到实际应用效果。数据集涵盖的图表解析、交通标志识别等任务，对开发适用于越南本土的智能教学助手具有直接参考价值，推动了教育评估的数字化转型。

衍生相关工作

基于ViExam数据集的评估发现，衍生出了一系列重要研究方向。思维模型o3的卓越表现（74.07%）催生了针对推理过程的模型架构优化研究；选项B偏差现象（31%）引发了关于多模态模型决策机制的可解释性分析；跨语言提示的混合结果推动了语言自适应策略的深入探索。这些发现为开发更强大的越南语多模态模型提供了理论依据，同时也为其他低资源语言的多模态研究提供了可借鉴的方法论框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集