CoSMo 数据集

Name: CoSMo 数据集
Creator: 计算机视觉中心与巴塞罗那自治大学
Published: 2025-07-14 16:35:37
License: 暂无描述

arXiv2025-07-14 更新2025-07-16 收录

下载链接：

https://github.com/mserra0/CoSMo-ComicsPSS

下载链接

链接失效反馈

官方服务：

资源简介：

CoSMo 数据集是一个包含 20,800 页漫画书的手动标注数据集，旨在帮助自动内容理解，例如字符分析、故事索引或元数据丰富。数据集来源于 Digital Comic Museum，包含了 430 本经典漫画书，涵盖了多种风格和结构，具有很高的多样性和代表性。该数据集为 Page Stream Segmentation 任务提供了一个重要的数据基础，并支持深度模型训练。

The CoSMo dataset is a manually annotated collection containing 20,800 comic book pages, designed to facilitate automatic content understanding tasks such as character analysis, story indexing, or metadata enrichment. Sourced from the Digital Comic Museum, this dataset includes 430 classic comic books covering diverse styles and structures, featuring high diversity and representativeness. It serves as a critical data foundation for the Page Stream Segmentation task and supports the training of deep models.

提供机构：

计算机视觉中心与巴塞罗那自治大学

创建时间：

2025-07-14

原始信息汇总

CoSMo-ComicsPSS 数据集概述

数据集基本信息

名称: CoSMo-ComicsPSS
用途: 用于漫画书的页面流分割（Page Stream Segmentation, PSS）
数据规模: 20,800页漫画页面
许可证: MIT License

数据集特点

多模态数据: 包含视觉和文本特征
高质量标注: 数据经过精心标注
应用场景: 支持漫画内容的自动化分析和元数据丰富化

数据集内容

视觉特征: 通过SigLIP骨干网络提取
文本特征: 通过Qwen2.5-VL-32B OCR输出提取
页面类型: 支持语义页面类型预测

数据集使用方法

数据准备: 确保漫画页面以图像文件形式组织，并配有相应的OCR输出（如果使用多模态变体）
模型运行: 使用cosmo.py脚本进行训练或推理

贡献与许可

贡献: 欢迎通过GitHub提交问题和拉取请求
许可证: MIT License

搜集汇总

数据集介绍

构建方式

CoSMo数据集构建基于430本经典漫画书籍，这些书籍来源于数字漫画博物馆（DCM）的公共领域资源。研究团队对20,800页漫画进行了手动标注，并进行了严格的质量检查以确保标注的准确性。每页被标注为五种语义类别之一：封面、广告、文本故事、故事或首页（标记为叙事块的起始页）。标注过程不仅纠正了现有元数据的不一致性，还与comics.org的元数据进行了精确对齐，确保了数据集的高质量和实用性。

特点

CoSMo数据集的特点在于其多样性和复杂性。它涵盖了多种漫画风格和结构，包括封面、广告、文本故事和故事页面，反映了漫画书籍的典型组成部分。数据集面临类内多样性（如广告页面的布局和风格差异显著）和类间相似性（如文本故事和广告在视觉上的相似性）的挑战。此外，数据集中存在明显的类别不平衡问题，故事页面占主导（71%），而其他类别如封面（2.4%）和文本故事（4.2%）则占比较少。这些特点使得CoSMo数据集成为评估模型在复杂视觉和语义环境下性能的理想选择。

使用方法

CoSMo数据集的使用方法包括单页和多页建模两种范式。在单页建模中，模型将每页视为独立的分类任务，适用于初步的语义角色推断。多页建模则利用Transformer架构处理连续的页面序列，捕捉叙事流和结构转换的上下文信息。数据集支持多种评估指标，如宏平均F1分数（F1-Macro）和全景质量（PQ），以全面衡量模型在分类和分割任务上的表现。此外，数据集还适用于零样本和少样本学习场景，支持大规模预训练模型的直接应用和微调。

背景与挑战

背景概述

CoSMo数据集由Computer Vision Center和Universitat Autònoma de Barcelona的研究团队于2025年创建，旨在解决漫画书籍中的页面流分割（Page Stream Segmentation, PSS）问题。该数据集包含20,800页来自公共数字档案的经典漫画书，经过人工标注，涵盖了封面、广告、故事、文本故事等多种语义类别。CoSMo数据集的推出填补了漫画领域在结构化文档分析中的空白，为自动化内容理解、故事索引和元数据丰富等下游任务提供了重要基础。该数据集不仅推动了漫画计算分析的研究，还为文化遗产的数字化保存和智能检索提供了技术支持。

当前挑战

CoSMo数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，漫画书籍的复杂视觉风格、非线性的布局以及多模态内容（图像、文本和空间结构）使得传统的文档分析方法难以适用，需要模型具备多模态推理能力。构建过程中的挑战则包括数据标注的复杂性，如类内多样性（同一类别的页面在布局和风格上差异巨大）和类间相似性（如文本故事和广告在视觉上难以区分），以及严重的类别不平衡问题（故事页面占比高达71%，其他类别则显著不足）。这些挑战要求数据集在标注和模型设计时需特别关注细粒度的语义区分和上下文建模。

常用场景

经典使用场景

CoSMo数据集在漫画书页流分割（Page Stream Segmentation, PSS）任务中展现了其经典应用场景。通过整合视觉和文本模态信息，该数据集能够自动将连续的漫画页面分割为语义连贯的单元，如故事、广告或文本插入部分。这一任务对于漫画内容的自动化理解至关重要，尤其在处理具有复杂布局和多样风格的漫画书时，CoSMo数据集提供了高质量的标注数据，支持模型在视觉和文本特征上的联合学习。

实际应用

在实际应用中，CoSMo数据集为漫画数字化存档和智能检索提供了重要支持。通过自动化页流分割，该技术能够显著降低人工标注成本，加速大规模漫画库的元数据生成。例如，在公共漫画存档如Digital Comics Museum中，CoSMo模型可以自动识别故事边界和广告页面，从而提升漫画内容的可搜索性和组织效率。此外，该技术还可应用于漫画出版流程的自动化，优化内容管理和分发。

衍生相关工作

CoSMo数据集衍生了一系列经典研究工作，推动了漫画分析领域的发展。基于该数据集，研究者开发了多模态Transformer架构CoSMo，其在页流分割任务中显著优于传统方法和通用视觉-语言模型。此外，该数据集还启发了对漫画高层次理解任务（如角色分析和叙事生成）的探索。相关成果包括Comix多任务基准和Magi系列研究，这些工作进一步扩展了漫画分析的深度和广度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集