ComicScene154

Name: ComicScene154
Creator: CAIRO,THWS,Technical University of Applied Sciences Würzburg-Schweinfurt
Published: 2025-08-22 16:11:58
License: 暂无描述

arXiv2025-08-22 更新2025-08-26 收录

下载链接：

https://github.com/Knorrsche/ComicScene154

下载链接

链接失效反馈

官方服务：

资源简介：

ComicScene154是一个由公共领域的漫画书籍组成的场景级叙事弧手动标注数据集，涵盖了多种类型的漫画。该数据集旨在促进多模态叙事理解计算方法的进步，并扩展自然语言处理中漫画分析的范畴。数据集包含4个公共领域的漫画杂志，共34个独特的故事，分布在154页的不同类型和出版年份中。数据集的创建过程包括从漫画页面中提取面板，并对其编号，以保持一致性。此外，数据集还进行了可重复性和可靠性评估。该数据集的应用领域包括叙事理解、故事摘要、实体跟踪等。

ComicScene154 is a manually annotated dataset of scene-level narrative arcs constructed from public-domain comic books, covering various comic genres. This dataset aims to advance computational methods for multimodal narrative understanding and expand the scope of comic analysis in natural language processing. The dataset consists of 4 public-domain comic magazines, totaling 34 unique stories spanning 154 pages across different genres and publication years. The dataset creation process involves extracting panels from comic pages and numbering them to ensure consistency. In addition, the dataset has undergone reproducibility and reliability evaluations. Application scenarios of this dataset include narrative understanding, story summarization, entity tracking, and more.

提供机构：

CAIRO,THWS,Technical University of Applied Sciences Würzburg-Schweinfurt

创建时间：

2025-08-22

原始信息汇总

ComicScene154 数据集概述

数据集简介

ComicScene154 是一个专为漫画书场景分析设计的数据集，支持场景分割、多模态学习和字幕生成等研究方向。该数据集包含多部漫画标题，每部漫画均带有标注的真实数据、图像以及基准场景分割结果。

项目结构

文档目录（docs/）
- 数据子目录（Data/）
  - Alley_Oop（漫画1）
    - Alley_Oop.json：包含场景和面板标注的真实数据
    - images：漫画图像
    - benchmarked_scenes：多模态场景的基准数据
    - benchmarked_refined_scenes：论文中使用的精炼基准数据
  - Champ（漫画2）
    - Champ.json：包含场景和面板标注的真实数据
    - images：漫画图像
    - benchmarked_scenes：多模态场景的基准数据
    - benchmarked_refined_scenes：论文中使用的精炼基准数据
  - Treasure_Comics（漫画3）
    - Treasure_Comics.json：包含场景和面板标注的真实数据
    - images：漫画图像
    - benchmarked_scenes：多模态场景的基准数据
    - benchmarked_refined_scenes：论文中使用的精炼基准数据
  - Western_Love（漫画4）
    - Western_Love.json：包含场景和面板标注的真实数据
    - images：漫画图像
    - benchmarked_scenes：多模态场景的基准数据
    - benchmarked_refined_scenes：论文中使用的精炼基准数据
- 提示词目录（Prompts/）
  - ScenePrompt.txt：场景分割提示词
  - SceneRefinerPrompt.txt：精炼场景分割提示词
- 代码文件
  - main.py：场景分割主函数
  - SceneSegmentation.py：场景分割功能函数
  - SceneRefiner.py：精炼场景分割功能函数
  - SceneUtils.py：工具函数
  - requirements.txt：环境依赖文件
  - benchmark.ipynb：场景分割基准评估笔记本

数据集内容

每部漫画标题包含以下内容：

真实数据：以JSON格式存储，包含场景和面板的标注信息。
图像：漫画页面的图像文件。
基准场景：用于多模态场景分析的基准数据。
精炼基准：在初始分割基础上改进的基准数据。

使用方式

环境安装

安装所需依赖： bash pip install -r requirements.txt

运行场景分割

执行场景分割： bash python main.py

基准评估

使用Jupyter Notebook进行基准评估： bash jupyter notebook benchmark.ipynb

其他信息

贡献：欢迎通过提交拉取请求来改进或添加功能。
许可证：未提供许可证信息。
联系：如有问题或疑问，请在GitHub上提交问题或联系维护者。

搜集汇总

数据集介绍

构建方式

在漫画叙事分析领域，ComicScene154数据集通过系统化流程构建而成。研究团队从公共领域漫画库Comic Book Plus精选四部跨类型漫画杂志，涵盖34个独立故事共154页内容。采用人工标注范式，由多组标注者依据叙事弧理论识别场景边界，每个面板均标注空间坐标与阅读顺序，并标记新场景起始点。为确保一致性，实施三重标注验证机制，通过pk指标量化标注者间一致性，最终形成具有叙事连贯性的场景级标注体系。

特点

该数据集显著特点在于其叙事粒度与多模态融合特性。作为首个专注于漫画场景分割的标注数据集，它包含191个场景边界标注，覆盖幽默、英雄、奇幻与爱情四种漫画类型。数据集遵循时空连续性原则，每个场景被定义为特定角色群体推进核心情节的语义单元。其独特价值体现在将视觉面板与叙事结构有机结合，为多模态叙事理解提供细粒度标注基准，同时保留黄金时代漫画的艺术风格与叙事特征。

使用方法

该数据集主要服务于多模态叙事分析任务，研究者可基于场景标注开展漫画叙事结构解析。典型应用包括场景分割算法评估，通过pk指标对比预测场景边界与人工标注的一致性；支持故事摘要生成任务，利用场景单元提取关键叙事要素；促进角色追踪研究，在连贯场景中分析人物关系演变。数据集提供面板坐标与阅读顺序信息，支持计算机视觉与自然语言处理模型的联合训练，为视频叙事分析提供跨模态迁移学习基础。

背景与挑战

背景概述

漫画作为一种融合文本与图像的多模态叙事媒介，在计算叙事分析领域长期处于探索不足的状态。2025年，德国维尔茨堡-施韦因富特应用技术大学的Sandro Paval团队推出了ComicScene154数据集，该数据集从公共领域漫画中手工标注了154页场景级叙事弧，涵盖幽默、英雄、奇幻与爱情等多种体裁。其核心研究在于解决漫画叙事理解中的场景分割问题，通过构建叙事驱动的多模态数据抽象，为自然语言处理与计算机视觉的交叉研究提供了重要基础，推动了多模态叙事分析方法的创新与发展。

当前挑战

该数据集旨在解决漫画场景分割这一核心领域问题，其挑战在于漫画叙事隐含的时空跳跃性与读者认知闭合效应导致的语义连贯性判断困难。构建过程中面临双重挑战：一是叙事单元标注的高度主观性，需通过多标注者一致性评估（平均pk=0.17）平衡个体差异；二是数据源限于公共领域黄金时代漫画，其艺术风格与叙事手法与现代漫画存在差异，限制了模型的泛化能力。此外，多模态模型在场景边界预测中表现接近随机（pk=0.42），凸显了语义单元自动识别的技术瓶颈。

常用场景

经典使用场景

在漫画叙事分析领域，ComicScene154数据集为场景分割任务提供了标准化评估基准。该数据集通过人工标注的叙事弧边界，支持研究者开发多模态模型来识别漫画中场景的起始与结束面板。其典型应用包括训练深度学习模型理解视觉与文本的协同叙事逻辑，尤其在处理非连续帧间的隐含关联时展现出独特价值，为漫画结构解析奠定了数据基础。

衍生相关工作

该数据集衍生出多项经典工作，例如基于多模态Transformer的场景边界预测模型，以及结合大型语言模型的叙事推理框架。这些研究借鉴了语义文本分割的评估指标（如pk度量），进一步推动了漫画分析与视频场景分割的跨领域方法迁移。相关成果已被扩展至电影叙事分析和交互式故事生成系统，形成多模态叙事计算的研究脉络。

数据集最近研究