five

Manga109Story|漫画生成数据集|多模态学习数据集

收藏
arXiv2024-12-27 更新2024-12-31 收录
漫画生成
多模态学习
下载链接:
https://siyuch-fdu.github.io/MangaDiffusion/
下载链接
链接失效反馈
资源简介:
Manga109Story数据集由美团研究团队构建,旨在支持基于纯文本的漫画生成研究。该数据集基于Manga109数据集,包含21142页由专业日本漫画家绘制的漫画,涵盖了从1970年代到2010年代的多种读者群体和题材。数据集通过多模态大语言模型(MLLM)为每页漫画生成面板描述和故事摘要,提供了丰富的标注信息,如面板坐标、角色名称、对话内容等。该数据集的应用领域主要集中在漫画生成任务,旨在通过纯文本生成多面板漫画页面,解决漫画创作中的连贯性、布局合理性和角色一致性等问题。
提供机构:
美团
创建时间:
2024-12-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
Manga109Story数据集的构建基于现有的Manga109数据集,该数据集是当前最大的开源漫画数据集,包含了丰富的注释资源,如面板、角色、文本的坐标以及对话内容。为了生成与漫画页面内容相关的描述,研究团队利用多模态大语言模型(MLLM)的强大理解能力,为每个面板生成情节相关的描述,并总结出与漫画页面内容相符的故事。通过整合这些信息,Manga109Story数据集为后续的漫画生成研究提供了丰富的数据支持。
特点
Manga109Story数据集的特点在于其多面板的叙事连贯性、合理的页面布局、角色一致性以及面板内容与脚本的语义对应性。每个面板的描述不仅捕捉了视觉信息,还通过角色对话和场景细节深入理解了故事情节。此外,数据集中的每个页面都包含多个面板,确保了故事的连续性和阅读顺序的合理性,为漫画生成任务提供了高质量的标注数据。
使用方法
Manga109Story数据集的使用方法主要包括两个步骤:首先,利用大语言模型(LLM)将完整的纯文本故事分割为多个脚本;其次,将这些脚本输入生成模型,端到端地生成漫画页面。在生成过程中,MangaDiffusion模型通过控制每个面板的视觉内容,确保面板数量与脚本数量一致,并通过面板内和面板间的信息交互,生成合理且灵活的页面布局。此外,通过局部掩码策略,减少了生成漫画中的气泡干扰,提升了生成质量。
背景与挑战
背景概述
Manga109Story数据集由美团公司的Siyu Chen、Dengjie Li等研究人员于2024年提出,旨在解决基于纯文本生成多面板日式漫画的挑战。该数据集基于现有的Manga109数据集构建,通过多模态大语言模型(MLLM)为每个漫画页面生成详细的描述和故事摘要。Manga109Story的创建标志着漫画生成领域的一个重要进展,尤其是在保持故事连贯性、合理布局、角色一致性以及面板与文本语义对应性方面。该数据集为后续的漫画生成研究提供了丰富的数据支持,推动了漫画生成技术在设计和商业应用中的潜力。
当前挑战
Manga109Story数据集在构建和应用过程中面临多重挑战。首先,漫画生成任务要求生成的漫画页面不仅需要保持面板之间的连贯性和合理的布局,还需确保角色的一致性和面板内容与文本的语义对应性,这对生成模型的复杂性和精确性提出了极高要求。其次,数据集的构建依赖于现有的Manga109数据集,尽管该数据集提供了丰富的标注信息,但如何将这些信息整合并生成符合故事情节的描述仍是一个技术难题。此外,漫画生成过程中还需处理对话气泡和文本对生成视觉内容的干扰,这进一步增加了模型训练的复杂性。
常用场景
经典使用场景
Manga109Story数据集在漫画生成任务中扮演了关键角色,特别是在基于纯文本生成多面板漫画的研究中。该数据集通过提供丰富的面板注释和故事描述,帮助研究者理解和模拟漫画的叙事结构、角色一致性以及面板布局的合理性。其经典使用场景包括训练和评估生成模型,如MangaDiffusion,以确保生成的漫画在视觉和叙事上具有连贯性。
解决学术问题
Manga109Story数据集解决了漫画生成领域中的多个学术问题。首先,它填补了从纯文本生成多面板漫画的研究空白,提供了高质量的数据支持。其次,通过引入面板间的信息交互机制,该数据集帮助模型在生成过程中保持角色一致性和叙事连贯性。此外,数据集还通过局部掩码策略减少了生成漫画中的杂乱元素,如无意义的对话气泡,提升了生成质量。
衍生相关工作
Manga109Story数据集衍生了一系列相关研究工作。基于该数据集,研究者提出了MangaDiffusion模型,通过面板内和面板间的信息交互机制,实现了灵活且多样化的漫画布局生成。此外,该数据集还推动了漫画生成领域的技术创新,如局部掩码策略的应用,减少了生成漫画中的杂乱元素。这些工作为未来的漫画生成研究提供了重要的参考和基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录