five

MangaVQA

收藏
arXiv2025-05-27 更新2025-05-29 收录
下载链接:
https://github.com/manga109/MangaLMM/
下载链接
链接失效反馈
官方服务:
资源简介:
MangaVQA是一个包含526个高质量问答对的新基准,旨在通过视觉问答评估上下文理解能力,该数据集基于Manga109数据集和漫画拟声词数据集构建,涵盖了多样化的叙述和视觉场景,为评估和推进LMM在漫画领域的理解能力提供了全面的基础。

MangaVQA is a novel benchmark comprising 526 high-quality question-answer pairs, designed to evaluate contextual comprehension capabilities via visual question answering (VQA). Built upon the Manga109 dataset and the manga onomatopoeia dataset, this benchmark covers diverse narrative and visual scenarios, providing a comprehensive foundation for evaluating and advancing the comprehension abilities of LMMs in the manga domain.
提供机构:
东京大学
创建时间:
2025-05-27
搜集汇总
数据集介绍
main_image_url
构建方式
MangaVQA数据集的构建过程体现了对多模态漫画理解的深度探索。研究团队从Manga109数据集中精选图像,并邀请五位专业标注员手工构建了526个高质量的问答对。为确保评估的严谨性,问题设计聚焦于具有明确答案的客观性问题,避免主观推断。标注过程中采用四维分类体系(信息需求、理解类型、5W1H要素、作者类型)对问题进行分类,并通过严格的标注协议保证数据质量。数据集特别强调对跨页漫画场景的理解,模拟人类读者的自然阅读体验。
特点
MangaVQA数据集具有三个显著特征:首先,其问题类型覆盖精确提取、多模态理解和纯图像理解三个认知层次,全面评估模型的多模态推理能力;其次,问题设计融合漫画特有的视觉-文本交互特征,如对话框识别、拟声词理解等专业领域知识;最后,数据分布精心设计,包含31.9%同作者不同作品、33.8%同系列不同卷和34.2%全新作者作品,有效测试模型的泛化能力。这些特征使其成为评估漫画理解模型的黄金标准。
使用方法
使用MangaVQA时需遵循多阶段评估流程。研究者首先需将模型在包含39,837个合成问答对的训练集上进行微调,该数据通过GPT-4o基于OCR标注生成。评估阶段采用LLM-as-judge机制,由GPT-4o根据标准答案对模型输出进行1-10分制评分。特别值得注意的是,该数据集支持细粒度分析,研究者可按照四维分类体系拆解模型表现,例如分析模型在需要跨页推理的问题(占54.6%)与单面板问题(占45.4%)上的性能差异,或比较不同问题类型(精确提取44.1%、多模态理解52.1%、图像理解3.8%)的得分情况。
背景与挑战
背景概述
MangaVQA是由东京大学的研究团队于2025年提出的一个多模态漫画理解基准数据集,旨在评估大型多模态模型(LMMs)在日式漫画中的上下文理解能力。该数据集基于广泛使用的Manga109数据集构建,包含526个高质量的手工构建的问答对,覆盖了多样化的叙事和视觉场景。MangaVQA的创建标志着漫画理解领域的一个重要里程碑,为研究者提供了一个可靠的评估工具,以推动多模态模型在复杂叙事媒介中的应用。
当前挑战
MangaVQA面临的挑战主要体现在两个方面:首先,在领域问题解决方面,漫画作为一种独特的叙事形式,融合了复杂的视觉元素和嵌入式文本,要求模型能够同时处理图像和文本信息,并在两者之间建立深层次的语义关联。其次,在数据集构建过程中,研究人员需要克服标注复杂性高、文本识别难度大(如非标准字体和布局的拟声词)以及版权问题等挑战。此外,评估模型在跨页漫画理解中的表现也是一个技术难点,因为人类通常以跨页为单位阅读漫画,而现有模型多局限于单页或面板级别的处理。
常用场景
经典使用场景
MangaVQA数据集在漫画多模态理解研究中扮演着关键角色,其核心应用场景在于评估大型多模态模型(LMMs)对漫画中视觉-文本联合叙事的深度理解能力。通过精心设计的526个问答对,研究者能够系统测试模型在跨页漫画场景中提取文本信息、关联视觉线索与对话内容的能力。该数据集特别适用于需要模型同时处理日文竖排文本、拟声词识别及跨面板语义推理的复杂任务场景,例如角色动机分析或情节连贯性验证。
衍生相关工作
该数据集催生了MangaLMM这一专用模型架构,其通过联合微调Qwen2.5-VL在OCR和VQA任务上的表现超越了GPT-4o等通用模型。相关研究还衍生出针对漫画领域的评估方法论创新,如基于LLM-as-judge的自动评分体系。在横向扩展方面,受MangaVQA启发,后续工作开始探索将类似框架应用于美漫(如COMICS数据集)和条漫(Webtoon)等多文化圈漫画形式的理解任务。
数据集最近研究
最新研究方向
近年来,随着多模态大模型(LMMs)在视觉-语言理解领域的快速发展,MangaVQA数据集的推出为漫画这一独特的多模态叙事形式的研究提供了新的方向。该数据集专注于通过视觉问答(VQA)评估模型对漫画内容的上下文理解能力,涵盖了526个高质量的手工构建的问题-答案对,涉及多样化的叙事和视觉场景。前沿研究主要集中在如何通过联合训练OCR和VQA任务来提升模型对漫画的全面理解能力,例如MangaLMM模型的开发。此外,该数据集还推动了漫画内容生成、辅助创作工具的开发,以及跨文化叙事理解的研究。MangaVQA的出现不仅填补了漫画领域缺乏可靠评估基准的空白,还为多模态模型在复杂叙事场景中的应用提供了重要参考。
相关研究论文
  • 1
    MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding东京大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作