VLM@school

Name: VLM@school
Creator: 霍夫应用科学大学
Published: 2025-06-13 17:20:41
License: 暂无描述

arXiv2025-06-13 更新2025-06-17 收录

下载链接：

https://iisys-hof.github.io/vlms-at-school/

下载链接

链接失效反馈

官方服务：

资源简介：

VLM@school 是一个用于评估视觉语言模型（VLMs）在德语环境中将视觉推理与学科特定背景知识相结合的能力的基准数据集。与广泛使用的英语基准相比，该数据集从九个领域（包括数学、历史、生物学和宗教）的真实中学课程中获取数据。基准包括超过 2,000 个开放式问题，这些问题的依据是 486 张图像，确保模型必须将视觉解释与事实推理相结合，而不是依赖于表面的文本线索。该数据集和评估协议作为严格的测试平台，旨在更好地理解和提高未来 AI 系统的视觉和语言推理能力。

VLM@school is a benchmark dataset designed to evaluate the ability of vision-language models (VLMs) to combine visual reasoning with domain-specific background knowledge in a German-language context. Compared to widely used English benchmarks, this dataset draws data from real secondary school curricula across nine domains including mathematics, history, biology and religion. The benchmark comprises over 2,000 open-ended questions grounded in 486 images, ensuring that models must integrate visual interpretation with factual reasoning rather than relying on superficial textual cues. This dataset and its evaluation protocol serve as a rigorous testbed aimed at better understanding and enhancing the visual and language reasoning capabilities of future AI systems.

提供机构：

霍夫应用科学大学

创建时间：

2025-06-13

搜集汇总

数据集介绍

构建方式

VLM@school数据集的构建基于德国中学课程的真实教学内容，涵盖数学、历史、生物、宗教等九个学科领域。研究团队从8至10年级的教材中精选了486张图片，并围绕这些图片设计了2038个开放式问题。为确保问题的多样性和挑战性，部分问题由作者自行构建，同时引入对抗性问题以测试模型在无法从图像中获取答案时的表现。图像尺寸控制在1300像素以内，平均像素在50万至130万之间，确保了数据的高质量和一致性。

特点

VLM@school数据集以其多学科覆盖和真实教育场景为显著特点。该数据集不仅包含常规的视觉问答任务，还特别设计了需要结合学科背景知识的问题，如音乐中的和弦识别或历史地图中的事件解读。对抗性问题的引入进一步增加了数据集的挑战性，迫使模型在无法从图像中获取明确信息时做出判断。数据集的德语语境和非英语多模态评估需求，填补了现有基准测试的空白。

使用方法

该数据集适用于评估视觉语言模型在多模态理解和学科知识整合方面的能力。使用者可通过提供的图像和对应问题，测试模型在开放式问答任务中的表现。评估时建议采用自动化评分系统，如LLM-as-a-judge方法，并结合多模型投票机制以减少偏差。对于对抗性问题，需特别关注模型在无法回答问题时的表现。数据集支持半精度(FP16)和4bit AWQ量化推理，适合在不同计算资源条件下进行测试。

背景与挑战

背景概述

VLM@school是由德国霍夫应用技术大学的René Peinl和Vincent Tischler于2025年提出的一个创新性基准数据集，旨在评估视觉语言模型（VLMs）在德语环境下结合视觉推理与学科背景知识的能力。该数据集基于德国中学八年级至十年级的真实课程内容，涵盖艺术、生物、地理、历史、数学、音乐、物理、宗教和体育等九个学科领域，包含486张图像和2038个开放式问题。与广泛使用的英语基准数据集不同，VLM@school强调模型需要整合视觉解读与事实推理能力，而非依赖表面的文本线索。该数据集的推出填补了非英语环境下多模态理解评估工具的空白，并为AI系统在真实教育场景中的应用提供了重要测试平台。

当前挑战

VLM@school面临的挑战主要体现在两个方面：领域问题方面，该数据集旨在解决视觉语言模型在跨学科知识整合与德语语境理解上的不足，特别是模型在音乐、数学等需要符号解析与逻辑推理的学科表现较差，整体准确率不足45%；构建过程方面，研究者需要确保问题设计既符合中学课程难度，又能有效避免纯文本可解性，同时处理图像标注的语义模糊性（如宗教场景的歧义描述），并平衡各学科领域的问题分布。此外，对抗性问题的设计需要精确控制语义接近度以检验模型的认知边界，这对数据集的构建方法论提出了较高要求。

常用场景

经典使用场景

VLM@school数据集专为评估视觉语言模型（VLMs）在德语环境下的多模态理解能力而设计。该数据集通过结合德国中学课程中的真实图像和开放式问题，涵盖了艺术、生物、地理、历史、数学、音乐、物理、宗教和体育等九个学科领域。其经典使用场景包括测试模型在视觉解析与学科知识融合任务中的表现，特别是在需要跨模态推理的中等难度问题上。

衍生相关工作

该数据集推动了多语言视觉理解评估体系的完善，后续研究基于其框架开发了扩展版本如Exams-V多语种考试数据集。其对抗性问题的设计方法被MapBench路径规划基准借鉴，而学科平衡的构建原则影响了SciVerse科学图表数据集的开发。相关成果还促使MMMU-Pro等主流基准增加了开放式问题比例和模态交互验证机制。

数据集最近研究