CoMix

Name: CoMix
Creator: 计算机视觉中心，UAB，西班牙；MICC，佛罗伦萨大学，意大利
Published: 2024-07-04 08:07:50
License: 暂无描述

arXiv2024-07-04 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.03550v1

下载链接

链接失效反馈

官方服务：

资源简介：

CoMix数据集由计算机视觉中心和MICC联合创建，是一个综合性的漫画理解基准，包含3.8k图像，涵盖多种漫画风格。数据集内容丰富，包括130K对象注释，30k文本-字符链接，以及33k字符集群。创建过程中，数据集通过精心选择和注释，确保了多样性和高质量。CoMix主要应用于漫画分析领域，旨在评估和提升模型在多任务处理和多模态推理方面的能力。

The CoMix dataset, jointly created by the Computer Vision Center and MICC, is a comprehensive benchmark for comic understanding. It includes 3.8k images spanning various comic art styles, and features rich annotation contents: 130k object annotations, 30k text-character alignments, and 33k character clusters. During its development, rigorous selection and annotation processes were employed to ensure both the diversity and high quality of the dataset. Primarily applied in the field of comic analysis, CoMix aims to evaluate and enhance the multi-task processing and multimodal reasoning capabilities of models.

提供机构：

计算机视觉中心，UAB，西班牙；MICC，佛罗伦萨大学，意大利

创建时间：

2024-07-04

搜集汇总

数据集介绍

构建方式

CoMix数据集的构建方式是通过整合和扩展三个现有的数据集，包括PopManga、DCM和eBDtheque，以及新增的美国漫画风格的书籍数据。为了克服现有数据集在漫画风格上的单一性，CoMix特意纳入了来自Digital Comic Museum的精选美国漫画，以丰富漫画风格的多样性。数据集中的图像和注释均经过精心选择和标注，以确保涵盖了多种漫画风格和艺术风格，为模型的多任务评估提供了基础。

特点

CoMix数据集的特点在于其全面性和多样性。它不仅包含了对象检测、说话人识别、角色再识别、阅读顺序等低级视觉任务，还包含了角色命名和对话生成等多模态推理任务。数据集中的图像和注释数量庞大，共包含3.8k张图像，来自近100本书籍，以及130K个物体、30k个文本字符链接和33k个角色簇。此外，CoMix还提供了验证分割和评估服务器，以便研究人员进行模型评估和比较。

使用方法

使用CoMix数据集时，研究人员可以访问其公开的验证分割，并使用提供的评估服务器进行模型评估。数据集的图像和注释可以用于训练和测试模型，以评估其在各种漫画分析和理解任务上的性能。此外，CoMix还提供了基线模型的结果，以供研究人员参考和比较。使用CoMix数据集时，研究人员需要遵守数据集的使用协议，并确保其研究成果的开放性和可重复性。

背景与挑战

背景概述

在漫画分析领域，随着单页分析和合成模型的快速发展，评价标准和数据集的滞后成为一个显著的问题。现有的数据集往往规模较小或仅限于单一风格的测试集，无法全面评估模型的多任务处理能力。为了解决这个问题，Emanuele Vivoli、Marco Bertini和Dimosthenis Karatzas等人于2024年创建了CoMix数据集，旨在评估模型在漫画分析中的多任务能力。CoMix数据集包括三个现有的数据集，并对其进行了扩展标注，以支持多任务评估。为了减少漫画风格数据过度表示的问题，CoMix还纳入了一个新的数据集，包含精心挑选的美国漫画风格书籍，从而丰富了漫画风格的多样性。CoMix的设计旨在评估预训练模型在零样本和有限微调设置下的性能，检验其在不同漫画风格和任务中的迁移能力。该数据集的验证分割已公开发布，用于研究目的，还提供了一个用于保留测试分割的评价服务器。CoMix的创建为漫画分析领域设定了新的标准，为社区提供了一个用于评估大规模和多样化数据集的通用基准。

当前挑战

CoMix数据集面临的主要挑战包括：1) 漫画领域问题的解决：CoMix旨在解决现有数据集在多任务评估方面的不足，包括物体检测、说话者识别、角色重新识别、阅读顺序以及多模态推理任务，如角色命名和对话生成。2) 构建过程中的挑战：为了确保数据集的多样性，CoMix在构建过程中需要解决版权问题，并从多个来源收集和整合数据，同时确保数据的准确性和一致性。CoMix数据集的创建为漫画分析领域的研究提供了新的可能性，同时也为模型的评估和改进提供了宝贵的资源。

常用场景

经典使用场景

CoMix数据集是一个全面的多任务漫画理解基准，旨在评估模型在漫画分析中的多任务能力。它包含了三个现有数据集，这些数据集的注释已被扩展以支持多任务评估。CoMix涵盖了对象检测、说话者识别、角色再识别、阅读顺序以及多模态推理任务，如角色命名和对话生成。此外，CoMix还包含了一个新的数据集，该数据集包含精心挑选的美国漫画风格的书籍，以丰富漫画风格的多样性。CoMix旨在评估预训练模型在零样本和有限微调设置中的表现，以测试它们在不同漫画风格和任务之间的迁移能力。CoMix的验证分割对研究人员公开可用，同时还提供了一个用于保留测试分割的评估服务器。CoMix的引入为漫画分析设定了新的标准，为社区提供了一个用于在大规模和多样化的数据集上进行评估的通用基准。

实际应用

CoMix数据集的实际应用场景包括漫画内容分析、漫画翻译、漫画生成等。通过使用CoMix数据集，研究人员可以训练模型来识别漫画中的对象、说话者、角色和阅读顺序，并生成对话和角色名称。这些模型可以用于分析漫画内容，提取关键信息，以及自动生成漫画翻译和漫画生成。CoMix的引入为漫画相关应用提供了更全面和多样化的数据集，有助于推动该领域的发展。

衍生相关工作

CoMix数据集的引入衍生了许多相关的工作。例如，一些研究人员使用CoMix数据集来评估和改进现有模型在漫画理解中的性能。此外，CoMix还启发了一些新的研究方向，如多模态推理和多任务学习。CoMix的引入为漫画理解研究提供了更全面和多样化的数据集，有助于推动该领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集