CoMix|漫画理解数据集|数据集框架数据集

github2024-11-09 更新2024-11-12 收录

漫画理解

数据集框架

下载链接：

https://github.com/emanuelevivoli/CoMix

下载链接

链接失效反馈

资源简介：

CoMix是一个用于漫画理解的漫画数据集框架，包含了多个漫画数据集，如DCM、comics、eBDtheque和PopManga等。该框架允许用户使用验证集的注释，并从原始来源下载图像，而不会违反许可证。

创建时间：

2024-11-09

原始信息汇总

CoMix: Comics Dataset Framework for Comics Understanding

简介

该项目旨在重现（在验证集上）以下基准测试：

[x] （检测）Comics Datasets Framework: Mix of Comics datasets for detection benchmarking
[ ] （多任务）CoMix: A Comprehensive Benchmark for Multi-Task Comic Understanding
[x] （字幕生成）ComiCap: A VLMs pipeline for dense captioning of Comic Panels

主要限制是无法共享图像。为解决此问题，我们创建了此框架，允许使用我们的（验证）注释，并从原始来源下载图像，而不会违反许可证。

comix 使用以下数据集：

[x] DCM
[x] comics
[x] eBDtheque
[x] PopManga
[ ] Manga109

安装

项目使用 Python 3.8 编写。创建 conda 环境： bash conda create --name myenv python=3.8 conda activate myenv

安装依赖项： bash pip install -e .

流程

项目分为以下步骤：

[x] 手动获取并定位图像和注释到正确的文件夹（例如 data/）
[x] 处理图像到统一的命名和文件夹结构 - comix/process
[x] 模型性能（在数据上使用预训练或自定义模型） - benchmarks
[x] 评估模型性能与提供的 Ground Truth - comix/evaluators

模型性能和评估

在 benchmarks 文件夹中，有多个脚本用于在各种任务上对数据集进行基准测试。检测脚本生成 COCO 格式的 json 文件，可由 comix/evaluators/detection.py 脚本用于评估模型性能。字幕生成脚本生成多个 .txt 文件，可通过后处理获得 captions.csv 和 objects.csv 文件，由 comix/evaluators/captioning.py 脚本用于评估模型性能。

文档

文档位于 /docs 文件夹中。

主要文档：

docs/README.md

AI搜集汇总

数据集介绍

构建方式

在构建CoMix数据集时，研究团队面临的主要挑战是如何在不违反版权的情况下，整合多个漫画数据集的图像和标注信息。为此，他们开发了一个框架，允许用户下载图像并使用预先提供的验证集标注，从而避免了直接共享图像的问题。该框架整合了DCM、comics、eBDtheque和PopManga等数据集，并通过统一命名和文件夹结构处理图像，确保数据的一致性和可用性。

特点

CoMix数据集的显著特点在于其多任务处理能力，涵盖了检测、多任务理解和字幕生成等多个领域。此外，该数据集支持自动标注和数据抓取功能的未来开发，预示着其扩展性和灵活性的潜力。通过使用COCO格式和多种文本文件进行模型评估，CoMix确保了评估过程的标准化和高效性。

使用方法

使用CoMix数据集时，用户首先需创建一个Python 3.8的conda环境，并通过pip安装相关依赖。随后，用户可以手动获取图像和标注，并将其放置在指定文件夹中。数据集提供了详细的文档，包括检测和字幕生成任务的具体流程，以及模型性能评估的脚本。用户可以通过这些脚本生成评估所需的文件，并使用提供的评估工具进行模型性能的量化分析。

背景与挑战

背景概述

CoMix数据集，由Emanuele Vivoli等人开发，旨在推动漫画理解领域的研究。该数据集框架整合了多个现有的漫画数据集，如DCM、comics、eBDtheque和PopManga，并计划未来纳入Manga109。CoMix的核心研究问题集中在漫画图像的自动标注、数据抓取以及多任务基准测试上。其创建旨在解决漫画数据集共享中的版权问题，通过提供验证集的标注和从原始来源下载图像的方式，确保不违反版权规定。CoMix的推出对漫画理解领域具有重要意义，为研究人员提供了一个统一的框架来评估和改进漫画图像处理技术。

当前挑战

CoMix数据集在构建过程中面临多项挑战。首先，漫画图像的版权问题限制了数据的直接共享，导致数据获取和处理过程复杂。其次，自动标注功能的实现需要对现有代码进行重构，以确保标注的准确性和效率。此外，多任务基准测试的开发仍在进行中，需要整合不同任务的评估方法，确保测试结果的全面性和公正性。最后，数据集的多样性要求模型在不同风格和类型的漫画上都能表现出色，这对模型的泛化能力提出了高要求。

常用场景

经典使用场景

在漫画理解领域，CoMix数据集的经典使用场景主要集中在漫画图像的检测与描述任务上。通过整合多个漫画数据集，如DCM、comics、eBDtheque和PopManga，CoMix提供了一个统一的框架，支持自动标注和多任务基准测试。研究者可以利用该数据集训练和评估检测模型，识别漫画中的关键元素，如角色和物体，同时生成详细的图像描述，从而提升漫画内容的理解和分析能力。

衍生相关工作

基于CoMix数据集，研究者们开发了多种相关工作，推动了漫画理解技术的发展。例如，ComiCap项目利用视觉语言模型（VLMs）生成漫画面板的密集描述，提升了图像描述的准确性和详细度。此外，多任务学习框架的引入，使得同时处理漫画中的检测和描述任务成为可能，进一步扩展了该领域的研究边界。

数据集最近研究

最新研究方向

在漫画理解领域，CoMix数据集的最新研究方向主要集中在多任务学习和自动标注技术的整合。随着漫画数据集的多样性和复杂性增加，研究者们致力于开发能够同时处理检测、描述和多任务基准测试的模型。这一趋势不仅提升了模型的泛化能力，还为跨领域的应用提供了新的可能性。此外，自动标注技术的引入，旨在解决手动标注的高成本和低效率问题，从而推动数据集的扩展和更新。这些前沿研究不仅深化了对漫画内容的理解，也为相关领域的技术进步奠定了基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

用于陆面模拟的中国土壤数据集（第二版）

本研究对中国范围内0-2米六个标准深度层（0-5、5-15、15-30、30-60、60-100和100-200厘米）的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面，世界土壤信息服务的1540个土壤剖面，第一次全国土壤普查的76个土壤剖面，以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色（包括蒙赛尔颜色和RGB两种形式）。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供，有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求，CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量，可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录