JAMMEval

Name: JAMMEval
Creator: LLM-jp
Published: 2026-04-05 12:52:35
License: 暂无描述

Hugging Face2026-04-05 更新2026-04-06 收录

下载链接：

https://huggingface.co/datasets/llm-jp/JAMMEval

下载链接

链接失效反馈

官方服务：

资源简介：

JAMMEval是一个经过精心整理的日语视觉问答（VQA）评估基准集合，旨在提升视觉语言模型（VLMs）的评估可靠性和质量。该数据集通过对七个现有日语VQA评估数据集进行两轮人工标注的精细化处理构建而成。数据集包含七个精细化版本：CC-OCR-JA-Refined、CVQA-JA-Refined、Heron-Bench-Refined、JA-Multi-Image-VQA-Refined、JA-VLM-Bench-Refined、JDocQA-Refined和JGraphQA-Refined。每个数据集都解决了原始版本中存在的关键问题，包括问题和答案的模糊性、错误的标注答案以及不需要视觉输入即可解决的问题。数据集规模从49个样本（JA-VLM-Bench-Refined）到861个样本（JDocQA-Refined）不等，主要包含图像、问题、答案等字段，部分数据集还包含OCR文本、图像类别、选项列表等附加信息。所有数据集仅包含测试集，适用于日语多模态理解和视觉问答任务的评估。由于版权限制，JDocQA-Refined的图像仅在日本国内服务器上托管，不包含在此镜像中。数据集整体采用Apache License 2.0许可，各子数据集继承其原始数据集的许可。

提供机构：

LLM-jp

创建时间：

2026-03-28

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，构建高质量基准数据集是推动多模态理解研究的关键。JAMMEval的构建过程体现了严谨的学术规范，它并非从零开始创建，而是通过对七个现有的日语视觉问答数据集进行系统性精炼而成。该过程包含两轮人工标注，核心目标在于修正原始数据中存在的歧义性问题、错误标注的答案，以及剔除那些无需视觉输入即可解答的伪多模态问题。这种精炼策略旨在提升评估的可靠性与纯净度，确保每一项任务都真实考验模型对图像与文本的联合理解能力。

特点

作为日语多模态评估的精选集合，JAMMEval展现出鲜明的特色。其核心在于汇集了七个经过精炼的子数据集，涵盖了光学字符识别问答、图表理解、文档解析及多图像推理等多种视觉问答场景，构成了一个层次丰富、任务多样的评估体系。每个子数据集均保留了原始数据的结构特征，例如图像、问题、答案及丰富的元数据字段，但通过人工修正确保了问题与答案对的准确性和必要性。这种设计使得JAMMEval能够全面、可靠地评估视觉语言模型在日语语境下的综合性能。

使用方法

为有效利用JAMMEval进行模型评估，研究者需遵循特定的使用流程。数据集主体需从指定的原始代码仓库克隆获取，并放置于本地目录中。随后，可以借助Hugging Face的`datasets`库，通过指定本地路径轻松加载任一精炼后的子数据集进行测试。配套的官方多模态评估框架为跨语言、跨任务的性能比对提供了统一标准。需要特别留意的是，由于版权限制，部分子数据集的图像资源访问需遵守相应法规，且各数据集遵循其原始许可协议，使用前务必逐一核查，尤其需区分研究与商业用途的界限。

背景与挑战

背景概述

JAMMEval数据集由日本国立情报学研究所（NII）的LLM-JP团队于2026年构建，旨在为日语视觉语言模型（VLM）的评估提供一套经过精炼的标准化基准。该数据集整合了七个现有的日语视觉问答（VQA）评估数据集，通过两轮人工标注流程，系统性地修正了原始数据中存在的歧义、标注错误以及无需视觉输入即可解答的问题。其核心研究聚焦于提升多模态模型在日语语境下评估的可靠性与严谨性，为跨语言视觉语言理解研究提供了重要的基础设施。

当前挑战

该数据集致力于解决日语视觉问答任务中评估基准质量参差不齐的核心挑战，具体包括原始数据中问题与答案的模糊性、标注答案的错误，以及部分问题仅依赖文本信息即可解答，未能真正检验模型的多模态理解能力。在构建过程中，团队面临整合多个异构数据集并统一其格式与许可协议的复杂性，同时需通过细致的人工审核确保修正后的数据在语义与逻辑上的一致性与准确性，这一过程对标注资源与专业知识提出了较高要求。

常用场景

经典使用场景

在视觉语言模型（VLM）的评估领域，JAMMEval数据集作为一套精心整理的日语视觉问答（VQA）基准集合，其经典使用场景在于为研究人员提供可靠的多模态模型性能测试平台。该数据集通过整合OCR识别、图表理解、文档解析及多图像推理等多样化任务，系统性地评估模型在日语语境下结合视觉与语言信息的能力。其严谨的人工标注与修正流程，确保了评估任务真正依赖于跨模态理解，而非单一模态的线索，从而成为衡量VLM在日语场景中泛化性与鲁棒性的关键工具。

实际应用

在实际应用层面，JAMMEval数据集为开发面向日语用户的智能系统提供了重要的评估依据。例如，在构建能够理解日语文档、图表或日常场景图像的辅助工具、教育软件或内容审核系统时，开发者可利用该数据集检验模型对图文混合信息的准确解析能力。其涵盖的多个子任务，如基于OCR的文本提取、图表问答以及多图像推理，直接对应了文档数字化、信息无障碍访问以及多媒体内容分析等现实需求，助力打造更精准、更符合本土化语境的人工智能应用。

衍生相关工作

围绕JAMMEval数据集，已衍生出一系列重要的相关研究工作。其配套的多模态评估框架（simple-evals-mm）为统一评测日语与英语VLM任务提供了技术支持，促进了跨语言基准测试的发展。同时，该数据集的构建方法论——即对现有数据集进行系统性人工精校以提升质量——也为其他语种或领域的基准构建提供了可借鉴的范式。此外，基于JAMMEval的评测结果，研究者能够更清晰地识别现有VLM在日语多模态理解上的短板，从而驱动模型架构与训练策略的针对性改进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集