MDK12-Bench

Name: MDK12-Bench
Creator: 上海人工智能实验室, 上海创新研究院, 中国科学技术大学, 美国罗切斯特理工学院, 哈尔滨工业大学, 武汉大学, 阿卜杜拉国王科技大学, 新加坡国立大学
Published: 2025-04-08 16:06:53
License: 暂无描述

arXiv2025-04-08 更新2025-04-10 收录

下载链接：

https://github.com/LanceZPF/MDK12

下载链接

链接失效反馈

官方服务：

资源简介：

MDK12-Bench是由上海人工智能实验室等机构共同创建的多学科综合评估基准，旨在通过现实世界的K-12考试来评估多模态大型语言模型（MLLMs）的推理能力。该数据集涵盖数学、物理、化学、生物、地理和信息科学六大领域，包含从小学到12年级的不同难度级别的140K个推理实例。数据集具有6827个基于知识点的详细注释，并提供了难度标签和跨年度分区，支持对MLLMs进行全面的评估。

MDK12-Bench is a multidisciplinary comprehensive evaluation benchmark co-created by Shanghai AI Laboratory and other institutions, aiming to evaluate the reasoning capabilities of multimodal large language models (MLLMs) using real-world K-12 examinations. This dataset covers six major fields including mathematics, physics, chemistry, biology, geography and information science, and contains 140,000 reasoning instances of varying difficulty levels from primary school to Grade 12. It features 6,827 detailed knowledge-point-based annotations, and provides difficulty tags and cross-year partitions to enable comprehensive evaluations of MLLMs.

提供机构：

上海人工智能实验室, 上海创新研究院, 中国科学技术大学, 美国罗切斯特理工学院, 哈尔滨工业大学, 武汉大学, 阿卜杜拉国王科技大学, 新加坡国立大学

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

MDK12-Bench的构建过程经过四个严谨阶段：数据收集阶段通过系统检索开源考试题库，覆盖多学科、多难度及多模态题型；数据筛选阶段采用GPT-4o自动化审核与人工核查相结合，剔除低质量图像或缺乏明确知识点的题目，保留题目解析与跨年度分区信息；数据解析阶段通过规则化处理将题目转化为结构化格式，提取年份、难度等级等关键字段；数据处理阶段通过GPT-4o实现中英翻译并构建六层级知识体系（学科-年级-课程-主题-元知识-关键知识点），确保学术语境完整性。

使用方法

使用MDK12-Bench时可采用渐进式评估策略：首先在三个难度子集（简单/中等/困难）进行初步测试，识别模型薄弱知识点；随后提取全量数据中对应知识点的完整题目进行针对性评估。动态评估模块需同步加载文本引导（如句式改写）和图像引导（如空间填充）策略，通过GPT解析模型输出并与标准答案比对，采用精确匹配或子问题分步计分机制。数据集支持单模态文本与多模态联合推理两种任务模式。

背景与挑战

背景概述

MDK12-Bench是由上海人工智能实验室等机构于2025年提出的多学科多模态推理基准测试。该数据集旨在解决当前多模态大语言模型（MLLMs）在复杂推理能力评估方面的不足，填补了现有基准在数据规模、领域覆盖和知识结构化方面的空白。数据集包含来自K-12教育阶段（1-12年级）的141,320个推理实例，涵盖数学、物理、化学、生物、地理和信息科学六个学科，每个问题都标注了难度级别、知识点和详细解析。通过构建系统化的知识树结构和引入动态评估框架，MDK12-Bench为全面评估MLLMs的真实推理能力提供了标准化平台，对推动通用人工智能发展具有重要意义。

当前挑战

MDK12-Bench面临的挑战主要体现在两个方面：在领域问题层面，现有MLLMs对跨学科高阶推理任务表现不佳，特别是在处理需要系统性分析和分步推理的复杂问题时准确率显著下降；在构建技术层面，团队需要克服多模态数据对齐、知识体系结构化以及动态评估框架设计等难题。具体包括：如何确保105,218张教育图像与文本问题的语义一致性，如何将6,827个知识点组织成六层知识树结构，以及如何通过文本改写（同义词替换、句式重构）和图像变换（空间填充、色彩反转、风格迁移）等方法有效防止数据污染问题。这些挑战使得数据集的构建过程涉及20余名研究人员和K-12教育专家的协同工作。

常用场景

经典使用场景

MDK12-Bench作为多学科多模态推理评估基准，其经典使用场景聚焦于系统化检验多模态大语言模型（MLLMs）在K-12教育领域的跨学科复杂推理能力。该数据集通过涵盖数学、物理、化学等六大学科的14万道试题，模拟真实教育场景中从基础概念理解到高阶问题求解的全谱系认知任务，尤其擅长评估模型在图文混合题型（如几何图形解析、实验数据图表分析）中的多模态信息融合能力。其细粒度的难度分级（小学至高中）和知识树标注体系，使得研究者能够精准定位模型在特定知识节点（如三角函数计算、氧化还原反应）上的表现差异。

解决学术问题

该数据集有效解决了多模态推理评估中三大核心学术问题：其一，突破单一学科局限，通过跨学科知识覆盖验证模型的泛化推理能力；其二，针对传统基准缺乏结构化知识体系的问题，提供6827个知识点标注与课程体系映射，支持可解释性分析；其三，创新性提出动态评估框架，通过文本改写（同义词替换）和图像变换（空间填充/色彩反转）生成对抗样本，有效缓解数据污染对评估效度的干扰。这些特性使其成为衡量模型从感知到认知跃迁的关键工具，为AGI发展提供了可量化的进步阶梯。

实际应用

在实际应用层面，MDK12-Bench已广泛应用于智能教育系统的开发与优化。教育科技公司利用其评估辅导AI的学科知识完备性，如自动解题系统在化学方程式配平或物理力学问题中的表现；在线教育平台通过其多模态特性优化交互式学习模块，例如基于图像风格转换生成个性化几何习题。政府部门则借助该基准的跨年度试题分区，监测AI模型对教育政策调整的适应性。特别在动态评估框架下，头部模型如Gemini2-thinking展现出16.5%的性能波动，这为实际部署中的鲁棒性优化提供了明确方向。

数据集最近研究