JMMMU-Pro
收藏arXiv2025-12-17 更新2025-12-18 收录
下载链接:
https://mmmu-japanese-benchmark.github.io/JMMMU_Pro/
下载链接
链接失效反馈官方服务:
资源简介:
JMMMU-Pro是由东京大学团队开发的基于图像的多学科多模态理解基准数据集,旨在评估模型对日语视觉-文本信息的整合理解能力。该数据集包含1320个问题,源自JMMMU基准,通过先进图像生成模型Nano Banana Pro将问题和对应图像融合为单一复合图像,覆盖多样化背景和布局设计。数据集构建采用创新的Vibe Benchmark Construction方法,以生成模型为主导、人工校验为辅,显著提升构建效率。其核心应用领域为评估大型多模态模型在日语环境下的视觉感知与复杂推理能力,尤其关注开源模型的性能瓶颈,为日语LMM发展提供重要基准工具。
JMMMU-Pro is an image-based multidisciplinary multimodal understanding benchmark dataset developed by the University of Tokyo team, designed to assess models' ability to integratively comprehend Japanese visual-textual information. This dataset includes 1,320 questions sourced from the JMMMU benchmark, where the questions and their corresponding images are fused into a single composite image via the state-of-the-art image generation model Nano Banana Pro, covering diverse backgrounds and layout designs. The dataset is constructed using the innovative Vibe Benchmark Construction method, which is generative model-led and supplemented by manual validation, substantially enhancing construction efficiency. Its core application lies in evaluating the visual perception and complex reasoning capabilities of large multimodal models (LMMs) in Japanese-language contexts, with particular emphasis on the performance bottlenecks of open-source models, thus serving as a critical benchmark tool for the advancement of Japanese LMMs.
提供机构:
东京大学
创建时间:
2025-12-17
原始信息汇总
JMMMU-Pro 数据集概述
数据集基本信息
- 数据集名称:JMMMU-Pro (Japanese MMMU-Pro)
- 简介:一个基于图像的日语多学科多模态理解基准,通过将每个问题的图像和文本嵌入到单个图像中构建而成,旨在评估模型通过视觉感知进行视觉-文本整合理解的能力。
- 构建方法:采用Vibe Benchmark Construction方法,利用图像生成模型(如Nano Banana Pro)生成候选视觉问题,并由人类进行验证和提示词调整以确保质量。
- 相关论文:JMMMU-Pro: Vibe Benchmark Construction of Image-based Japanese Multi-discipline Multimodal Understanding Benchmark (arXiv:2512.14620)
- 作者机构:The University of Tokyo (Atsuyuki Miyai, Shota Onohara, Jeonghun Baek, Kiyoharu Aizawa)
数据集特点与构建
- 核心特点:将问题图像和问题文本合成为单一图像,要求模型进行整合的视觉-文本理解。
- 构建优势:利用Nano Banana Pro模型高度逼真的图像生成和清晰的日语文本渲染能力,以低成本构建高质量基准,覆盖广泛的背景和布局设计。
- 构建范式:图像生成模型主导整个视觉问答(VQA)问题图像的创建过程,人类仅负责验证和提示词优化,特别适用于基于图像的VQA任务。
实验结果与发现
主要发现
- 开源模型表现:所有开源大型多模态模型(LMM)在JMMMU-Pro上均表现不佳,最佳模型Qwen3-VL-8B的得分仅为45.83,表明存在巨大改进空间。
- 性能下降:与JMMMU相比,大多数开源LMM(除Qwen2.5-VL-7B外)在JMMMU-Pro上的准确率显著下降。
- 闭源模型优势:闭源LMM在JMMMU-Pro上取得了显著更高的分数,揭示了其与开源模型之间的严重差距。
- 挑战性:JMMMU-Pro为评估和推进开源LMM的发展提供了一个具有挑战性且有价值的基准。
链式思维(CoT)提示分析
- 有效性差异:链式思维提示的有效性因模型和评估设置(JMMMU-Pro vs. JMMMU)而异。
- 模型偏好:部分模型在JMMMU和JMMMU-Pro上表现出不同的提示策略偏好,表明最优提示策略需针对每个模型和任务进行定制。
OCR性能分析
- 相关性:日语光学字符识别(OCR)性能与JMMMU-Pro准确率之间存在正相关(相关系数0.593)。
- 能力要求:解决JMMMU-Pro不仅需要强大的OCR能力,还需要通过视觉感知对语言和视觉信息进行整合解释和推理的能力。
样本与内容
- 样本多样性:JMMMU-Pro包含具有各种背景的图像,反映了真实场景的多样性。
价值与意义
- 评估工具:为评估LMM的日语能力提供了一个更严格的评估工具。
- 指导作用:作为指导开源社区未来工作的重要基准。
- 方法论贡献:Vibe Benchmark Construction为未来基于图像的VQA基准开发提供了高效的指导方针。
搜集汇总
数据集介绍

构建方式
在构建JMMMU-Pro数据集时,研究团队采用了创新的Vibe Benchmark Construction方法,该方法以图像生成模型为核心驱动力,显著提升了数据集构建的效率和可扩展性。具体而言,团队利用Nano Banana Pro这一先进的图像生成模型,将原始JMMMU数据集中的每个问题图像和文本嵌入到单一的合成图像中。生成过程通过精心设计的提示模板进行控制,涵盖了多样化的背景、布局、字体和状态参数,以确保生成图像的多样性和真实性。随后,人工审核环节对生成的图像进行质量验证,对于不符合要求的样本,通过调整提示词进行重新生成,从而在保证高质量的同时,大幅降低了人工成本。对于少数模型难以生成的复杂样本,则采用手动构建的方式予以补充。
特点
JMMMU-Pro数据集的核心特点在于其评估范式的前瞻性,它要求模型通过视觉感知对嵌入图像中的文本和视觉信息进行一体化理解,这模拟了人类在真实场景中处理图文混合信息的核心认知能力。该数据集基于成熟的JMMMU基准扩展而来,包含1320个问题,覆盖了文化无关和文化特定两大类别下的28个学科,确保了评估内容的广度和深度。其生成的图像具有高度的真实感和多样性,背景涵盖了工作簿、白板、网页、电视节目等多种现实世界布局,字体和颜色也经过系统化设计,从而构建了一个既严谨又贴近实际应用场景的评估环境。
使用方法
JMMMU-Pro数据集主要用于评估大型多模态模型在日语语境下的综合视觉-文本理解能力。在使用时,研究者将包含问题和选项的合成图像直接输入待评估的模型,模型需要从图像中提取并理解文本信息,同时结合视觉内容进行推理,最终输出对应的选项字母。评估过程支持直接回答和思维链两种提示策略,以全面考察模型的推理能力。该数据集为模型开发者提供了与原始JMMMU进行直接对比的基准,通过分析模型在两种格式下的性能差异,可以清晰地揭示模型在视觉感知和一体化理解方面的短板,从而为后续模型的改进提供明确的方向。
背景与挑战
背景概述
随着大型多模态模型在英语领域的成功,针对非英语语言特别是日语的多模态模型开发需求日益增长。JMMMU-Pro数据集由东京大学的研究团队于2025年提出,旨在构建一个基于图像的日语多学科多模态理解基准。该数据集是对现有JMMMU基准的扩展,通过将问题图像和文本嵌入单一图像中,模拟人类通过视觉感知整合图文信息的核心认知能力。其核心研究问题在于评估模型在日语环境下对复杂视觉文本信息的统一理解和推理能力,填补了日语多模态评估在视觉认知维度上的空白,对推动日语多模态模型向具身智能和现实应用场景发展具有重要影响力。
当前挑战
JMMMU-Pro数据集致力于解决日语多模态模型在视觉文本整合理解方面的评估挑战,其核心是要求模型具备类似人类的、通过单一视觉通道同步处理嵌入图像中的文本与视觉信息并进行高级推理的能力。在构建过程中,研究团队面临多重挑战:首先,利用图像生成模型自动合成高质量、图文融合的评估样本时,需确保生成图像中日语文本的准确性与可读性,并保持与原始问题语义的一致性,这涉及对生成模型能力的精细调控。其次,对于生成长文本、包含特殊符号或复杂版式的样本,自动生成方法可能失效,需辅以人工构建以确保数据集的全面性与严谨性。最后,构建流程需在自动化规模扩展与人工质量验证之间取得平衡,以可控成本实现数据集的多样性与高保真度。
常用场景
经典使用场景
在日语多模态模型评估领域,JMMMU-Pro数据集作为一项图像基准测试,其经典使用场景聚焦于评估模型在单一图像中整合视觉与文本信息的能力。该数据集通过将问题图像与文本嵌入同一张图片,模拟真实世界中截图或文档的呈现形式,要求模型不仅识别图像内容,还需理解嵌入的日语文本,并进行跨学科推理。这种设计使得JMMMU-Pro成为衡量模型视觉感知与语言理解协同作用的关键工具,尤其适用于测试模型在复杂场景下的综合认知表现。
实际应用
JMMMU-Pro数据集的实际应用场景广泛涉及日语环境下的智能系统开发。例如,在嵌入式代理与机器人系统中,模型需通过视觉界面自主解析包含日语文本的屏幕截图,以执行导航或操作任务。在教育技术领域,该数据集可支持开发能够自动解答图像化试题的辅导工具,模拟真实考试或学习材料的处理。此外,在跨文化人机交互中,它有助于优化模型对日本文化遗产、艺术等特定领域图像的理解,提升诸如博物馆导览或内容审核等服务的准确性与适应性。
衍生相关工作
JMMMU-Pro数据集衍生了一系列相关经典工作,主要体现在多模态基准测试构建与模型评估方法的创新上。其核心方法论“氛围基准构建”通过生成模型主导图像生成、人工验证微调的模式,为后续图像化问答数据集的低成本规模化开发提供了范本。在模型研究方面,该数据集激励了针对日语OCR能力增强的专门模型优化,如Sarashina2.2-Vision等日语开源模型的迭代改进。同时,它推动了类似MMMU-Pro的跨语言扩展研究,促使社区探索其他非英语语言中视觉-文本集成评估基准的构建,以弥合多语言多模态理解的发展鸿沟。
以上内容由遇见数据集搜集并总结生成



