Comics Datasets Framework
收藏arXiv2024-07-04 更新2024-07-09 收录
下载链接:
https://github.com/emanuelevivoli/cdf
下载链接
链接失效反馈官方服务:
资源简介:
Comics Datasets Framework是一个用于漫画检测基准测试的综合数据集,由计算机视觉中心(UAB,西班牙)和MICC(佛罗伦萨大学,意大利)创建。该数据集包含超过29,000页的漫画,涵盖多种风格和语言,旨在解决漫画分析中的标准化标注和模型可复现性问题。数据集的创建过程包括统一标注格式和引入多种漫画风格,以提高对象检测的准确性。该数据集主要应用于漫画图像分析领域,特别是复杂任务如对话生成,依赖于精确的对象识别。
Comics Datasets Framework is a comprehensive dataset for comic detection benchmarking, developed by the Computer Vision Center (UAB, Spain) and MICC (University of Florence, Italy). This dataset includes over 29,000 comic pages spanning diverse styles and languages, with the goal of addressing the challenges of standardized annotation and model reproducibility in comic analysis. The dataset construction process unifies annotation formats and integrates multiple comic styles to enhance the accuracy of object detection. It is primarily applied in the domain of comic image analysis, particularly for complex tasks such as dialogue generation, which depend on precise object recognition.
提供机构:
计算机视觉中心,UAB,西班牙;MICC,佛罗伦萨大学,意大利
创建时间:
2024-07-04
原始信息汇总
漫画数据集框架
用于混合漫画数据集(现有和新数据集)的框架,包含密集和精心策划的注释。
结构
在主仓库中,将发布以下内容:
- [ ] 获取数据集的说明(DCM772, comics100, PopManga, eBDtheque, Manga109)
- [ ] 统一现有注释的主要代码
- [ ] 转换器至UCA
- [ ] 转换器至/自CVAT, COCO, YOLO
作为以下代码的一部分,我们将发布:
- [ ] 上述数据集的检测注释(训练分割)(由作者精心策划)
- [ ] Faster R-CNN, YOLO微调模型的代码和权重
- [ ] 评估上述模型以及现有Magi, DASS, GroundingDINO的代码
- [ ] 性能评估的评估服务器
搜集汇总
数据集介绍

构建方式
Comics Datasets Framework (CDF) 的构建旨在解决现有漫画数据集中存在的挑战,如数据集规模小、标注不一致、模型权重不可访问以及结果无法直接比较等问题。为了实现这一目标,CDF 首先收集了四个主要的可用数据集,并对它们进行了统一的标注,包括常见的对象类别。此外,为了弥补漫画风格在数据集中代表性不足的问题,CDF 还对 100 本美国漫画书进行了标注,形成了 Comics100 数据集。这些标注均采用了统一的格式,以便于不同数据集之间的比较和分析。
特点
Comics Datasets Framework 的主要特点在于其标注的统一性和多样性。该框架将不同的数据集转换为统一的格式,使得研究人员可以更方便地比较和分析不同数据集之间的差异。同时,CDF 还引入了 Comics100 数据集,增加了美国漫画风格的代表性,使得模型可以在更广泛的数据集上进行训练和测试。此外,CDF 还提供了一个标准的评估系统,使得研究人员可以公平地比较不同模型的性能。
使用方法
使用 Comics Datasets Framework 首先需要了解其数据集的结构和标注格式。CDF 提供了详细的文档和代码示例,帮助研究人员理解如何使用这些数据集。研究人员可以使用 CDF 提供的代码将不同格式的数据集转换为统一的格式,并使用 CDF 的评估系统对模型进行评估。此外,CDF 还提供了模型的权重和代码,以便于研究人员复现实验结果。
背景与挑战
背景概述
漫画作为一种独特的媒体形式,将文本和图像以与现实世界视觉风格截然不同的方式相结合。在过去的三十年中,计算研究从基本的物体检测发展到更复杂的任务。然而,该领域面临着持续的挑战,如数据集规模小、注释不一致、模型权重难以获取以及由于训练/测试分割和指标不同导致结果无法直接比较。为了解决这些问题,我们旨在跨数据集标准化注释,将各种漫画风格引入数据集,并建立具有清晰、可复制设置的基准结果。我们提出的Comics Datasets Framework将数据集注释标准化为通用格式,并通过引入Comics100(一个来自数字漫画博物馆的100本书的精选集合,以我们的统一格式进行检测注释)来解决漫画的过度代表性。我们使用Comics Datasets Framework对各种检测架构进行了基准测试。所有相关代码、模型权重和详细评估过程均在https://github.com/emanuelevivoli/cdf上提供,确保透明度并促进复制。这一倡议是提高漫画中物体检测的重大进展,为依赖于精确物体识别的更复杂的计算任务奠定了基础。
当前挑战
该数据集面临的主要挑战包括:1) 领域问题:漫画的复杂布局和独特风格给图像分析带来了挑战。2) 构建过程中的挑战:数据集规模小、注释不一致、模型权重难以获取以及结果无法直接比较。3) 数据集质量:不同数据集之间注释质量差异较大,一些数据集仅提供伪标签,缺乏必要的精度。4) 数据集多样性:现有数据集主要集中于英文、法语和日语漫画,缺乏多样性。5) 模型可重复性:由于缺乏代码和模型权重,实验的可重复性受到限制。为了解决这些挑战,Comics Datasets Framework致力于标准化注释、引入更多样化的漫画风格、建立可比较的基准结果,并提供清晰的评估设置和可访问的模型。
常用场景
经典使用场景
该数据集的典型应用场景是漫画图像的物体检测。通过统一标注格式,研究人员可以更准确地识别漫画中的面板、角色、文本和拟声词等元素,从而为更复杂的任务,如漫画对话生成,打下坚实的基础。
解决学术问题
该数据集解决了漫画研究领域中数据集规模小、标注不一致、模型权重不可访问以及结果难以比较等问题。通过统一标注格式和引入多种漫画风格,该数据集为对象检测任务提供了更准确和可比的基准。
衍生相关工作
该数据集的发布促进了漫画研究领域的发展,衍生了许多相关工作,包括基于该数据集的模型训练和评估,以及针对不同漫画风格的检测算法的研究。
以上内容由遇见数据集搜集并总结生成



