Manga109Dialog
收藏arXiv2024-04-22 更新2024-06-21 收录
下载链接:
https://github.com/liyingxuan1012/Manga109Dialog
下载链接
链接失效反馈官方服务:
资源简介:
Manga109Dialog是由东京大学开发的世界最大的漫画对话数据集,包含132,692对说话者与文本的关联。该数据集通过独特的标注标准,优先连接同一框架内的说话者和文本,确保数据集的全面性和适用性。创建过程耗时约三个月,通过专业标注团队完成。该数据集主要用于漫画中的说话者检测,支持自动文本到语音阅读、角色个性翻译等多种应用,旨在解决漫画分析中的自动化挑战。
Manga109Dialog, developed by The University of Tokyo, is the world's largest manga dialogue dataset, containing 132,692 speaker-text association pairs. It adopts unique annotation criteria that prioritize linking speakers and their associated texts within the same comic panel, ensuring the dataset's comprehensiveness and applicability. Its development took approximately three months and was completed by a professional annotation team. Primarily utilized for speaker detection in manga, this dataset supports a variety of applications such as automatic text-to-speech reading and character personality translation, aiming to address automation challenges in manga analysis.
提供机构:
东京大学
创建时间:
2023-06-30
搜集汇总
数据集介绍

构建方式
Manga109Dialog数据集的构建基于Manga109,通过独特的标注标准,将漫画中的角色与对话文本进行关联。标注过程主要遵循以下规则:若页面中只有一个角色,则直接将该角色的边界框与文本关联;若页面中有多个角色,优先将同一帧中的角色与文本关联,若角色不在同一帧中,则根据阅读顺序(从上到下,从右到左)进行关联。此外,当多个角色与同一文本关联时,所有角色的边界框都会被标注。数据集的构建历时三个月,由专业标注人员完成,最终形成了包含132,692对角色与文本关联的标注数据。
使用方法
Manga109Dialog数据集主要用于漫画中的角色与文本关联检测任务,特别适用于深度学习模型的训练与评估。使用该数据集时,首先需要加载图像和标注文件,提取角色和文本的边界框信息,并根据标注规则进行关联。模型可以通过检测角色和文本的区域,计算它们之间的关系得分,从而预测文本的说话者。数据集还提供了帧信息,用户可以利用这些信息进一步优化模型的预测性能。此外,数据集的评估采用了新的Recall@(#text)指标,该指标能够更公平地评估模型在不同页面上的表现,适合用于漫画角色检测任务的基准测试。
背景与挑战
背景概述
随着电子漫画市场的迅速扩展,自动化分析漫画内容的需求日益增长。为了提升机器对漫画的理解能力,将漫画中的文本与相应的角色进行关联成为了一个关键问题。Manga109Dialog数据集由东京大学的Yingxuan Li、Kiyoharu Aizawa和Yusuke Matsui于2024年创建,旨在解决漫画中角色与文本关联的自动化问题。该数据集包含了132,692对角色与文本的标注,是目前全球最大的漫画对话数据集。通过引入场景图生成模型,研究团队提出了一种基于深度学习的方法,并结合漫画特有的帧阅读顺序,显著提升了角色检测的准确性,达到了75%以上的预测精度,为漫画角色检测领域设立了新的基准。
当前挑战
Manga109Dialog数据集的构建面临多个挑战。首先,漫画中角色与文本的关联复杂,尤其是在多角色和多文本的情况下,传统的基于距离的规则方法难以准确预测。其次,漫画的帧阅读顺序与传统图像分析不同,需要专门的处理方法。此外,数据集的标注过程也极具挑战,涉及大量的手动工作,且需要确保标注的准确性和一致性。最后,如何设计适合漫画角色检测的评估指标也是一个重要问题,因为传统的场景图生成评估指标并不完全适用于漫画数据。这些挑战不仅影响了数据集的构建,也对后续的研究提出了更高的要求。
常用场景
经典使用场景
Manga109Dialog数据集的经典使用场景主要集中在漫画中角色与对话文本的关联检测。通过该数据集,研究者可以训练模型自动识别漫画图像中的角色区域和文本区域,并预测文本对应的说话角色。这一任务在漫画自动翻译、角色关系推理以及文本转语音等应用中具有重要意义。
解决学术问题
Manga109Dialog数据集解决了漫画分析领域中角色与对话文本关联检测的难题。传统方法依赖于简单的规则,如选择离文本最近的角色的方法,在复杂场景中表现不佳。该数据集通过引入深度学习方法和场景图生成模型,显著提升了检测精度,为学术界提供了一个可靠的基准,推动了漫画分析技术的发展。
实际应用
Manga109Dialog数据集在实际应用中具有广泛的前景。例如,在漫画自动翻译系统中,该数据集可以帮助识别不同角色的对话,从而根据角色的性格和背景进行更准确的翻译。此外,在漫画阅读辅助工具中,该数据集可以用于自动生成角色对话的语音,提升用户体验。
数据集最近研究
最新研究方向
Manga109Dialog数据集在漫画分析领域的前沿研究方向主要集中在漫画角色与对话文本的自动关联检测上。随着电子漫画市场的快速扩展,自动化分析漫画内容的需求日益增长,尤其是在角色与对话文本的关联检测方面。Manga109Dialog通过构建大规模的角色与文本关联标注数据集,推动了基于深度学习的场景图生成模型(SGG)在漫画角色检测中的应用。该数据集不仅提供了丰富的标注信息,还通过引入帧信息和阅读顺序,显著提升了模型的预测准确性,达到了75%以上的预测精度。这一研究为漫画分析领域提供了新的基准,并为未来的研究提供了方向,特别是在结合自然语言处理(NLP)技术以进一步提高检测精度的可能性。
相关研究论文
- 1Manga109Dialog: A Large-scale Dialogue Dataset for Comics Speaker Detection东京大学 · 2024年
以上内容由遇见数据集搜集并总结生成



