GAOKAO-MM
收藏arXiv2024-02-24 更新2024-06-21 收录
下载链接:
https://github.com/OpenMOSS/GAOKAO-MM
下载链接
链接失效反馈官方服务:
资源简介:
GAOKAO-MM是一个基于中国高考的多元模态基准数据集,由复旦大学计算机科学与技术学院创建。该数据集包含646个问题,涵盖8个科目,如数学、物理、化学等,并涉及12种类型的图像,如图表、地图和照片。数据集通过手动收集2010至2023年间的高考多选题及其解释构建。GAOKAO-MM旨在评估模型的感知、理解和推理能力,特别强调在人类水平任务上的表现。此数据集适用于评估大型视觉语言模型在复杂任务中的表现,尤其是在教育领域的应用。
GAOKAO-MM is a multimodal benchmark dataset based on China's National College Entrance Examination (Gaokao), created by the School of Computer Science and Technology, Fudan University. This dataset comprises 646 questions covering 8 subjects including mathematics, physics, chemistry and more, and involves 12 types of images such as charts, maps and photographs. It is constructed by manually collecting the Gaokao multiple-choice questions and their accompanying explanations from 2010 to 2023. GAOKAO-MM aims to evaluate models' perceptual, comprehension and reasoning capabilities, with a particular emphasis on performance on human-level tasks. This dataset is suitable for evaluating the performance of large vision-language models in complex tasks, especially for educational applications.
提供机构:
复旦大学计算机科学与技术学院
创建时间:
2024-02-24
搜集汇总
数据集介绍

构建方式
GAOKAO-MM数据集源自中国高考(GAOKAO),由复旦大学研究团队手动收集2010年至2023年间的高考多选题及其图像,并将题目中的数学公式转换为LaTeX格式。数据集包含646道题目,涵盖语文、数学、物理、化学、生物、政治、历史和地理8个学科,共计897张图像,涉及示意图、函数图、地图、折线图、几何图形等12种图像类型。每道题目均配有由人工标注的详细解析,以支持对模型推理过程的深入分析。
特点
GAOKAO-MM的核心特点在于其高度模拟人类水平的综合能力评估。与现有基准相比,其平均题目长度超过260个字符,是其他数据集的4倍以上,强调对长文本和图像的精细理解。数据集源自本土中文语境,包含大量与中国文化相关的内容,如历史和政治题目,同时覆盖多样化的图像类型,要求模型同时具备感知、理解、知识和推理能力。实验表明,即使最先进的GPT-4V准确率也仅为48.1%,凸显了该基准的挑战性和对多模态模型迈向通用人工智能的推动作用。
使用方法
GAOKAO-MM采用零样本设置策略,模拟人类参加考试的方式。研究者针对不同学科设计定制化提示词,引导模型逐步输出推理过程和最终答案,并利用基于规则的鲁棒方法提取结果。模型需同时处理文本和图像输入,通过内部知识融合进行推理,最终从多选题中选出正确选项。该数据集适用于评估开源和闭源多模态大语言模型,如GPT-4V、Qwen-VL-Plus和Gemini-Pro-Vision,并支持按学科、图像类型和年份进行多维度分析,以揭示模型在不同任务上的能力差异与鲁棒性表现。
背景与挑战
背景概述
随着多模态大语言模型在图像感知与语言理解领域取得突破性进展,如何全面评估其接近人类水平的综合能力成为关键挑战。2024年,复旦大学计算机科学技术学院的宗怿与邱锡鹏教授团队提出了GAOKAO-MM基准数据集,该数据集基于中国高考(2010-2023年)的真实试题构建,涵盖语文、数学、物理等8个学科及图表、函数图像、地图等12种图像类型。与现有基准不同,GAOKAO-MM强调对长文本与图像的深层理解、知识调用与逻辑推理,平均问题长度是现有数据集的4倍以上,且源自本土中文语境,为评估多模态模型迈向通用人工智能提供了高难度、高生态效度的测试平台。
当前挑战
GAOKAO-MM面临的核心挑战首先在于领域问题的复杂性:模型需同时处理图像感知、长文本理解与跨学科知识推理,现有最强模型GPT-4V准确率仅48.1%,开源模型均低于25%,尤其在数学推理与语文阅读等需要精细逻辑与长文本细节捕捉的任务上表现薄弱。其次,数据集构建过程中挑战重重:从PDF中人工提取646道带图选择题并转换公式为LaTeX格式,需保证图像多样性(12种类型)与学科平衡性,同时每年高考题难度波动导致模型鲁棒性不足,同一模型在不同年份试题上的准确率差异可达20%,揭示了大规模模型对输入敏感性的关键瓶颈。
常用场景
经典使用场景
GAOKAO-MM作为一项基于中国高考的多模态基准测试,广泛应用于评估大型视觉语言模型(LVLMs)在感知、理解、知识与推理等人类级能力上的综合表现。其涵盖语文、数学、物理、化学、生物、政治、历史和地理八门学科,并包含图表、函数图像、地图、照片等十二种图像类型,为模型提供了接近人类认知方式的复杂多模态任务场景。通过零样本设置模拟真实考试环境,研究者可系统性地考察模型在处理长文本与多样化图像时的协同能力,从而揭示其在多模态理解与逻辑推理上的优势与不足。
解决学术问题
该数据集有效解决了现有基准测试如VQA、OK-VQA、TextVQA等仅聚焦单一能力或图像类型的问题,填补了中文原生语境下多模态人类级评估的空白。GAOKAO-MM通过引入超长问题文本与多样化图像,迫使模型必须同时进行精细文本理解与图像感知,从而推动对LVLMs综合能力的深度剖析。实验表明,包括GPT-4V在内的顶级模型准确率均未超过50%,揭示了当前模型在数学推理、长文本与图像细粒度理解以及鲁棒性方面的显著短板,为多模态模型向通用人工智能迈进提供了关键洞察与改进方向。
衍生相关工作
GAOKAO-MM的提出催生了多项相关研究工作。例如,研究者借鉴其评估框架,开发了针对特定学科(如数学)的细粒度多模态推理任务,或基于其长文本与图像协同分析的需求,设计了新的视觉-语言联合训练策略。此外,该数据集还启发了对模型鲁棒性的深入探索,催生了针对不同年份高考题的性能波动分析,以及面向中文文化背景的多模态理解基准的扩展,如融入更多本土化知识图谱与复杂图表推理的衍生数据集,进一步丰富了多模态评估的生态体系。
以上内容由遇见数据集搜集并总结生成



