MangaZero
收藏arXiv2024-12-10 更新2024-12-12 收录
下载链接:
https://jianzongwu.github.io/projects/diffsensei/
下载链接
链接失效反馈官方服务:
资源简介:
MangaZero是由上海人工智能实验室创建的一个大规模漫画数据集,专门用于支持多角色、多状态的漫画生成任务。该数据集包含43,264页漫画和427,147个带注释的面板,涵盖了丰富的角色互动和动作序列。数据集的创建过程包括从互联网下载漫画页面,使用预训练模型进行自动注释,并通过人工校准提高注释的准确性。MangaZero的应用领域主要集中在漫画生成和故事可视化,旨在解决现有数据集在角色控制和布局管理方面的不足,提供更精确和多样化的漫画生成支持。
MangaZero is a large-scale comic dataset created by the Shanghai AI Laboratory, specifically designed to support multi-character and multi-state comic generation tasks. This dataset contains 43,264 comic pages and 427,147 annotated panels, covering a wide range of character interactions and action sequences. The development pipeline of MangaZero includes downloading comic pages from the Internet, performing automatic annotation using pre-trained models, and improving annotation accuracy through manual calibration. The primary application areas of MangaZero focus on comic generation and story visualization, aiming to address the shortcomings of existing datasets in terms of character control and layout management, and provide more precise and diversified support for comic generation.
提供机构:
上海人工智能实验室
创建时间:
2024-12-10
搜集汇总
数据集介绍

构建方式
MangaZero数据集通过三个主要步骤构建而成。首先,从MangaDex网站下载了48部日本黑白漫画系列,每部漫画下载了多达1000页,总计43,264页。其次,使用预训练的Magi模型对漫画页面进行自动标注,包括面板边界框、角色边界框、角色ID和对话边界框。最后,通过人工校准进一步提高了角色ID标注的准确性,确保了数据集的高质量。最终,数据集被分为训练集和评估集,其中96页用于评估,其余43,168页用于训练。
特点
MangaZero数据集具有多个显著特点。首先,它是首个为多角色、多状态漫画生成任务设计的大规模数据集,包含43,264页漫画和427,147个标注面板。其次,数据集涵盖了多样化的角色互动和动作,支持复杂的叙事生成。此外,数据集的标注精细,包括面板、角色和对话的边界框,以及角色ID,为模型提供了丰富的控制信息。
使用方法
MangaZero数据集主要用于支持定制化漫画生成任务。研究人员可以使用该数据集训练模型,以生成具有多角色控制和动态布局的漫画页面。通过输入文本提示、角色图像和布局条件,模型能够生成符合要求的漫画面板,并根据文本调整角色的表情、姿势和动作。此外,数据集还可用于研究漫画风格的控制和叙事延续,为漫画生成领域的进一步研究提供了坚实的基础。
背景与挑战
背景概述
MangaZero数据集由上海人工智能实验室和北京大学等机构的研究人员于2024年创建,旨在支持定制化漫画生成的研究。该数据集包含了43,264页黑白漫画和427,147个注释面板,涵盖了多种角色互动和动作,是首个大规模的多角色、多状态漫画生成数据集。MangaZero的创建填补了现有故事可视化数据集在角色标注和布局控制方面的空白,为漫画生成领域的研究提供了重要的资源。通过与扩散模型和多模态大语言模型的结合,MangaZero为生成具有动态角色控制和精确布局的漫画提供了基础,推动了漫画生成技术的进步。
当前挑战
MangaZero数据集的构建面临多重挑战。首先,漫画生成领域的核心问题是如何在多角色场景中实现对角色外观和互动的有效控制。现有模型在处理多角色时往往缺乏灵活性,导致角色表现单一。其次,数据集的构建过程中,研究人员需要对大量漫画页面进行自动化标注,并进行人工校准以确保角色ID的准确性,这一过程耗时且复杂。此外,漫画生成任务还面临风格一致性、角色动态变化以及对话布局控制的挑战,这些都需要在模型设计和数据集构建中得到有效解决。
常用场景
经典使用场景
MangaZero数据集的经典使用场景主要集中在多角色、多状态的漫画生成任务中。该数据集通过提供丰富的角色交互和动作序列,支持从文本描述生成具有动态情节的漫画页面。通过结合扩散模型和多模态大语言模型(MLLM),MangaZero能够生成具有精确布局控制和角色定制的漫画内容,尤其适用于需要复杂角色互动和情节发展的场景。
衍生相关工作
MangaZero数据集的发布催生了一系列相关研究工作,特别是在多角色定制生成和漫画风格控制方面。基于该数据集,研究者提出了多种生成模型,如DiffSensei框架,通过结合扩散模型和多模态大语言模型,实现了对角色外观和动作的动态调整。此外,该数据集还推动了对漫画风格迁移和故事续写等任务的研究,进一步扩展了漫画生成技术的应用范围。
数据集最近研究
最新研究方向
MangaZero数据集在漫画生成领域的最新研究方向主要集中在多模态大语言模型(MLLM)与扩散模型的结合,以实现定制化漫画生成。研究者提出了DiffSensei框架,通过融合扩散模型和MLLM,能够动态调整角色表情、姿态和动作,从而生成更具表现力和连贯性的漫画面板。该研究不仅推动了漫画生成技术的进步,还为多角色场景的精确控制提供了新的解决方案,特别是在角色特征的跨面板一致性和文本提示的灵活响应方面。MangaZero数据集的引入为这一任务提供了大规模的训练数据支持,进一步推动了漫画生成技术的前沿发展。
相关研究论文
- 1DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation上海人工智能实验室 · 2024年
以上内容由遇见数据集搜集并总结生成



