Manga109-v2026

Name: Manga109-v2026
Creator: 东京大学; Mantra公司
Published: 2026-05-20 21:49:13
License: 暂无描述

arXiv2026-05-20 更新2026-05-22 收录

下载链接：

https://manga109.github.io/manga109-project-website/en/

下载链接

链接失效反馈

官方服务：

资源简介：

Manga109-v2026是由东京大学与Mantra公司联合构建的漫画多模态理解基准数据集，旨在为现代AI系统提供高质量的漫画文本标注。该数据集包含147,887条文本标注，覆盖109部完整漫画作品，通过结合OCR辅助检测与人工修订，系统性修正了约29,000条对话标注中的转录错误、缺失区域、重叠标注等五类问题。数据集创建过程采用基于商业OCR系统的差异分析与多轮人工验证，显著提升了标注的空间精度和语义一致性。该数据集主要应用于漫画光学字符识别、多模态理解、机器翻译等研究领域，致力于解决传统漫画标注与现代AI任务之间的对齐问题，为跨文化漫画分析提供可靠基础。

Manga109-v2026 is a multimodal comic understanding benchmark dataset jointly developed by the University of Tokyo and Mantra Inc., which is designed to provide high-quality comic text annotations for modern AI systems. This dataset contains 147,887 text annotations spanning 109 complete comic works. By combining OCR-assisted detection and manual revision, it systematically rectifies five types of issues including transcription errors, missing annotation regions, and overlapping annotations in approximately 29,000 dialogue annotations. During the dataset construction process, differential analysis based on commercial OCR systems and multi-round manual verification were adopted, which substantially enhances the spatial accuracy and semantic consistency of the annotations. This dataset is primarily applicable to research domains such as comic optical character recognition (OCR), multimodal understanding, and machine translation, aiming to resolve the alignment gap between traditional comic annotation methods and modern AI tasks, and provide a reliable foundation for cross-cultural comic analysis.

提供机构：

东京大学; Mantra公司

创建时间：

2026-05-20

原始信息汇总

数据集概述：Manga109

Manga109 是一个由东京大学信息科学与技术研究生院信息与通信工程系相泽・山崎・松井实验室整理，专为学术研究使用的日本漫画数据集。

基本统计

卷数: 109卷（完整Manga109）/ 87卷（商业授权子集Manga109-s）
页数: 21,142页
时间跨度: 1970年代至2010年代
数据来源: Manga Library Z（原绝版漫画图书馆）

子集：Manga109-s

109卷中，有87卷已获得商业使用的新授权，被命名为 Manga109-s。
该子集允许基于机器学习或图像处理实验的结果用于商业目的，但禁止分发原始数据集及将漫画图像直接作为产品销售。

标注内容

数据集提供了超越原始图像的丰富标注，包括多个子项目：

Manga109: 核心标注，包含角色、面部、画面框和文本的边界框标注。
Comic Onomatopoeia: 专注于日本漫画中拟声词的专用数据集。
MangaLMM & MangaVQA: 一个专门的多模态漫画理解大语言模型和VQA基准。
Manga109-v2026: 为现代漫画理解修订并改进的标注版本。

用途与许可

Manga109: 严格限定于学术、非商业目的。禁止向第三方重新分发。使用数据集内容时需标注“courtesy of [作者姓名]”或“© [作者姓名]”，并引用相关论文。
Manga109-s: 在遵守特定条件（如禁止售卖数据集图像、出版整页内容不超过原书20%）下，允许将实验结果用于商业用途。

影响与论文

该系列论文在研究社区中被广泛引用，系列总引用量超过2,200次。
核心参考论文包括：
- IEEE MultiMedia 2020, "Building a Manga Dataset ``Manga109 with Annotations for Multimedia Applications"
- MTAP 2017, "Sketch-based Manga Retrieval using Manga109 Dataset"
- ECCV 2022, "COO: Comic Onomatopoeia Dataset for Recognizing Arbitrary or Truncated Texts"
- EACL Findings 2026, "Mangavqa and mangalmm: A benchmark and specialized model for multimodal manga understanding"
- ICML Workshop 2026, "Manga109-v2026: Revisiting Manga109 Annotations for Modern Manga Understanding"

搜集汇总

数据集介绍

构建方式

Manga109-v2026在原始Manga109数据集基础上，通过结合光学字符识别(OCR)驱动的自动检测与人工审核，系统性地修正了约29,000条对话文本标注。研究者首先利用现代商业OCR引擎（由Mantra Inc.开发）的输出与原始标注进行比对，识别出五类标注问题：转录错误、过大的边界框、缺失的文本标注、对话与拟声词重叠，以及未充分分割的气泡标注。随后，针对每类问题采取差异化修正策略：转录错误借助GPT-5和Gemini 3 Flash两种大语言模型进行一致性判定，并结合人工核实；过大边界框通过手动分割以提升空间精度；缺失标注通过补充边界框和转录文本实现；重叠区域则保留拟声词标注的同时移除对话文本中的重叠部分；未充分分割的气泡则依据OCR检测结果划分为独立区域。最终，所有修正均经过四位作者的手动验证，确保修正质量。

使用方法

Manga109-v2026主要用于支持漫画领域的OCR、翻译、多模态理解等下游任务。研究者可直接将其作为训练或评估数据集：在OCR任务中，修订后的边界框和转录文本提供了更可靠的地面真值，尤其适用于评估现代OCR系统对漫画特有文本结构（如风格化拟声词、气泡布局）的识别能力；在翻译任务中，分离的对话与拟声词标注有助于保留原文的叙事节奏与风格特征。数据集使用方式与原始Manga109一致，可加载图像及对应的XML格式标注文件，其中包含修订后的面板结构、角色信息与对话文本。研究者可按需过滤或使用五类修正标注，以适配不同实验需求。项目主页提供详细文档和示例代码，便于快速集成到现有研究流程中。

背景与挑战

背景概述

漫画作为一种兼具视觉叙事、独特排版与拟声词表达的多模态文化载体，深刻影响了日本流行文化，并日益成为人工智能研究的前沿阵地。Manga109数据集由东京大学Aizawa团队于2017年首次发布，后经多次扩展，构建了包含页面结构、角色信息及对话文本在内的丰富标注体系，为漫画OCR、翻译、多模态理解及生成式大模型等任务奠定了基准。然而，随着现代AI系统对漫画解读能力的跃升，原始数据集中约19.6%的文本标注暴露出转录错误、缺失区域、对话与拟声词重叠以及气泡分割不足等问题。为此，Jeonghun Baek等人于2026年结合OCR检测与人工校勘，推出了Manga109-v2026修订版本，通过修正近29,000条对话标注，显著提升了数据集的可靠性与现代AI系统的对齐度，成为漫画多模态研究再出发的重要基石。

当前挑战

Manga109-v2026所应对的核心挑战源于原始标注与现代AI系统之间的结构性错配。在领域层面，传统标注将拟声词与对话文本不加区分地重叠标注，致使翻译系统无法保留拟声词的叙事风格；同时，未充分分割的对话气泡与当代OCR检测单元的粒度不一致，导致正确识别结果在评测中被误判为错误。在构建层面，修订工作面临五大类挑战：转录错误的校准须依赖GPT-5与Gemini 3 Flash等多模型共识及人工复审以甄别逾九千处歧义；过大的标注框需在保持文本完整性的前提下精细切分；对短促表情符号如“！”的遗漏须通过人工补全以还原叙事节奏；重叠区域的消解需兼顾拟声词标注的独立性；气泡分割的修正则要求重新划定边界以匹配现代系统检测特性。这些挑战的解决不仅提升了OCR评测分数14.4个百分点，更昭示了文化数据集需持续迭代以追随AI演进的必然性。

常用场景

经典使用场景

在漫画多模态智能研究的广袤领域中，Manga109-v2026被广泛用作评估与训练光学字符识别（OCR）系统的黄金标准数据集。研究者借助该数据集中精细修订的对话文本标注与丰富的漫画页面结构，能够高效开展端到端文本检测与识别的实验。其经典应用场景包括对漫画中手绘风格文字、拟声词以及对话框内复杂布局的精准识别与定位，成为推动漫画OCR技术从学术原型向实用系统跨越的核心验证平台。

解决学术问题

该数据集直面原始Manga109标注中存在的五大核心痛点：转录错误、边界框过大、文本缺失、对话与拟声词重叠以及对话框欠分割。通过OCR辅助检测与人工修正相结合的策略，约29,000处标注得到修正，解决了因标注不精确导致的模型评估分数虚低问题——端到端H-mean值提升14.4个百分点。此举显著提升了评测基准的可靠性，为漫画文本理解、多模态叙事解析等学术问题提供了更加公允的标尺。

实际应用

在实际产业应用中，Manga109-v2026为漫画自动翻译系统的质量跃升奠定了数据基石。修正后的标注消除了拟声词与对话文本的混淆，使翻译引擎能够区分并保留漫画特有的表现性文字风格，避免直译导致的语义失真。同时，针对欠分割对话框的优化，令文本定位模块能够更准确地捕获独立气泡内容，从而提升多语种字幕生成、语音合成对齐以及跨语言漫画平台的内容本地化效率。

数据集最近研究