JAMMEval

Name: JAMMEval
Creator: 京都大学; 日本国立情报学研究所·LLMC; 日本国立情报学研究所; 早稻田大学; 东京科学研究所
Published: 2026-04-01 21:53:06
License: 暂无描述

arXiv2026-04-01 更新2026-04-03 收录

下载链接：

https://speed1313.github.io/JAMMEval

下载链接

链接失效反馈

官方服务：

资源简介：

JAMMEval是由日本多所顶尖研究机构联合构建的日语视觉语言模型评估基准，通过对7个现有日语VQA数据集的系统性优化形成。该数据集包含1,592个精炼样本，覆盖OCR、日本文化知识、多图像推理等七大领域，采用两轮人工标注流程修正了原始数据中模糊问题、错误答案等缺陷。其创新性在于通过重标注而非简单过滤来保证数据规模，显著提升了评估信度，适用于检验模型对日语多模态任务的真实理解能力。

JAMMEval is a Japanese visual-language model evaluation benchmark jointly constructed by multiple leading Japanese research institutions, formed through systematic optimization of seven existing Japanese Visual Question Answering (VQA) datasets. This dataset contains 1,592 refined samples covering seven domains including OCR, Japanese cultural knowledge, multi-image reasoning and more, and adopts a two-round manual annotation process to correct defects such as ambiguous questions and incorrect answers in the original data. Its core innovation lies in ensuring data scale through re-annotation rather than simple filtering, which significantly improves evaluation reliability and is applicable to testing the real understanding capabilities of models for Japanese multimodal tasks.

提供机构：

京都大学; 日本国立情报学研究所·LLMC; 日本国立情报学研究所; 早稻田大学; 东京科学研究所

创建时间：

2026-04-01

原始信息汇总

JAMMEval 数据集概述

数据集名称

JAMMEval: A Refined Collection of Japanese Benchmarks for Reliable VLM Evaluation

核心贡献者

Issa Sugiura (Kyoto University, NII LLMC)
Koki Maeda (Institute of Science Tokyo, NII LLMC)
Shuhei Kurita (NII, NII LLMC)
Yusuke Oda (NII LLMC)
Daisuke Kawahara (Waseda University, NII LLMC)
Naoaki Okazaki (Institute of Science Tokyo, NII LLMC)

资源链接

论文地址：https://speed1313.github.io/JAMMEval (arXiv)
代码地址：https://speed1313.github.io/JAMMEval (Code)
博客地址：https://speed1313.github.io/JAMMEval (Blog)

研究背景与目标

现有的日语视觉问答评估数据集存在局限性，包括问题表述模糊、偶尔的标注不准确，以及某些问题无需视觉基础即可回答的情况，这降低了评估的可靠性。为解决这些问题，构建了JAMMEval。

数据集描述

JAMMEval是一个经过重新标注的评估数据集集合，源自七个广泛使用的日语基准测试。所有实例都经过两轮人工审查和重新标注，以产生一个精炼的基准集合。

主要特点与影响

通过重新标注，提高了区分模型性能的分辨率。
在精炼后，所有模型的准确率都有所提高，且多次运行间的方差减小。
移除了有问题的实例，并将模糊的问题替换为客观上可回答的问题，从而获得更稳定和可靠的评估分数。

评估结果

在JAMMEval的七个任务上评估了现有模型。Gemini 3 Pro（启用了推理功能）总体得分最高，而所有其他模型均在未启用推理功能的情况下进行评估。

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，数据质量直接决定了评估的可靠性。JAMMEval的构建过程体现了对现有日语视觉问答基准的系统性精炼。该数据集从七个涵盖OCR、日本文化知识、多图像理解、文档与图表等多样化领域的现有日语基准中选取了1925个初始实例。通过两轮人工标注与审查流程，团队对数据进行了深度清洗与重构：第一轮由作者进行初步审查与修正，第二轮则由外部标注者进行复核，以捕捉遗漏问题并修正细微错误。这一过程不仅统一了答案格式，将多数数据集标准化为短答案形式，还针对模糊问题、错误答案及缺乏视觉依赖性的实例进行了重新标注或替换，而非简单删除，从而在提升质量的同时尽可能保留了样本规模，最终形成了包含1592个高质量实例的精炼集合。

特点

JAMMEval的核心特点在于其经过严格人工校验的高质量与高可靠性。该数据集有效解决了现有日语视觉问答基准中普遍存在的模糊性问题、标注错误以及无需视觉信息即可作答的缺陷，确保了每个评估实例都具备明确的视觉依赖性和客观可判定的答案。其覆盖范围广泛，囊括了日本文化常识、文档解析、图表理解和光学字符识别等多个关键领域，为全面评估模型的多模态理解能力提供了多维度的测试场景。经过精炼后，数据集在评估中展现出更低的运行间方差、更高的模型区分度以及更准确地反映模型真实能力的评估分数，显著提升了基准的判别效度与稳定性。

使用方法

JAMMEval为评估视觉语言模型在日语多模态任务上的性能提供了标准化的测试平台。研究者可使用该数据集对开源或专有模型进行系统评估，主要采用准确率作为核心指标。对于短答案问题，建议使用基于大型语言模型的软精确匹配进行评分，以兼容答案在字符全半角、单位表述等方面的细微差异；对于选择题，则通过正则表达式提取预测选项并进行精确匹配。评估时需使用数据集提供的特定提示模板，以引导模型生成符合格式的响应，并将生成参数如温度设置为零以确保结果的可复现性。通过在此基准上的测试，能够可靠地衡量模型在日语语境下的视觉理解、文化知识掌握及复杂推理等综合能力。

背景与挑战

背景概述

随着视觉语言模型在跨模态理解领域的快速发展，构建可靠的评估基准成为推动模型进步的关键环节。然而，相较于英文视觉问答基准经过多轮迭代优化的成熟生态，日文VQA基准的发展相对滞后，存在数据质量参差不齐、评估信度不足的问题。为此，来自京都大学、东京科学大学及国立信息学研究所等机构的研究团队于2026年推出了JAMMEval数据集。该数据集通过对七个现有日文基准进行系统性人工精炼，旨在构建一个高质量、低噪声的评估集合，以准确衡量模型在日文多模态任务上的真实能力，为日语视觉语言模型的研发提供可靠的评估基础。

当前挑战

JAMMEval致力于解决的核心领域挑战在于提升日语视觉问答评估的可靠性与区分度。具体而言，原始日语基准普遍存在三大问题：问题表述模糊导致答案不唯一；标注答案本身存在错误；以及大量问题无需依赖图像信息即可解答，这严重削弱了评估对模型视觉理解能力的真实反映。在构建过程中，研究团队面临的主要挑战在于如何在有限的样本规模下实现质量提升。许多原始数据集样本量稀少，若单纯采用过滤噪声样本的策略，会进一步缩减数据集规模并增大评估方差。因此，JAMMEval创新性地采用了以人工重标注为核心的修正策略，而非简单剔除，在提升数据质量的同时，尽可能保留了评估所需的样本多样性，确保了基准的统计稳健性。

常用场景

经典使用场景

在视觉-语言模型（VLM）的评估领域，JAMMEval数据集主要用于对模型在日语视觉问答任务上的性能进行可靠且标准化的基准测试。该数据集通过整合并精炼了涵盖OCR、日本文化知识、多图像理解、文档解析以及图表分析等七个领域的现有日语VQA基准，构建了一个高质量、多样化的评估集合。其经典应用场景在于为研究人员提供一个经过人工双重审核与重标注的权威测试平台，用以系统性地衡量和比较不同VLM模型在日语多模态理解任务上的真实能力，从而避免因原始数据中的模糊问题、错误答案或非视觉依赖性问题导致的评估偏差。

衍生相关工作

JAMMEval数据集的构建方法论与精炼理念，继承并发展了此前在英语VLM评估基准（如MMStar、DatBench）中倡导的基准质量提升范式。其工作直接推动了日语多模态评估生态的完善，相关衍生研究包括基于JAMMEval的模型能力深入分析，例如对Gemini、GPT系列及Qwen等开源与闭源模型在日语任务上表现差异的细致解读。此外，该数据集也为后续研究如何构建更具挑战性、更能区分顶尖模型性能的日语基准，以及探索可扩展的自动化或半自动化基准精炼方法，提供了重要的数据基础与灵感来源。

数据集最近研究