manga-whisperer

Hugging Face2024-09-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/MattyMroz/manga-whisperer

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于漫画的对象检测、OCR、聚类和对话分离任务。模型名为'The Manga Whisperer'，旨在自动生成漫画的转录文本。作者是Ragav Sachdeva和Andrew Zisserman，来自牛津大学。

This dataset is designed for tasks including object detection, OCR, clustering, and dialogue separation in comics. The model, named 'The Manga Whisperer', aims to automatically generate transcribed text for comics. The authors are Ragav Sachdeva and Andrew Zisserman from the University of Oxford.

创建时间：

2024-09-20

原始信息汇总

Manga Whisperer 数据集

基本信息

语言: 英语 (en)
标签:
- Manga
- Object Detection
- OCR
- Clustering
- Diarisation
作者:
- Ragav Sachdeva
- Andrew Zisserman
机构: University of Oxford

使用示例

python from transformers import AutoModel import numpy as np from PIL import Image import torch import os

images = [ "path_to_image1.jpg", "path_to_image2.png", ]

def read_image_as_np_array(image_path): with open(image_path, "rb") as file: image = Image.open(file).convert("L").convert("RGB") image = np.array(image) return image

images = [read_image_as_np_array(image) for image in images]

model = AutoModel.from_pretrained("ragavsachdeva/magi", trust_remote_code=True).cuda() with torch.no_grad(): results = model.predict_detections_and_associations(images) text_bboxes_for_all_images = [x["texts"] for x in results] ocr_results = model.predict_ocr(images, text_bboxes_for_all_images)

for i in range(len(images)): model.visualise_single_image_prediction(images[i], results[i], filename=f"image_{i}.png") model.generate_transcript_for_single_image(results[i], ocr_results[i], filename=f"transcript_{i}.txt")

许可证与引用

许可证: 该模型和数据集可用于个人、研究、非商业和非盈利用途。其他用途请联系作者。
引用:

@misc{sachdeva2024manga, title={The Manga Whisperer: Automatically Generating Transcriptions for Comics}, author={Ragav Sachdeva and Andrew Zisserman}, year={2024}, eprint={2401.10224}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

manga-whisperer数据集的构建基于对漫画图像的多模态处理技术，结合了目标检测、光学字符识别（OCR）、聚类和对话分割（Diarisation）等多种方法。研究者通过自动化工具从大量漫画图像中提取文本和视觉信息，并对其进行结构化处理，生成了包含文本转录和图像标注的丰富数据集。这一过程不仅依赖于先进的深度学习模型，还通过人工校验确保了数据的高质量。

特点

manga-whisperer数据集的核心特点在于其多模态特性，能够同时处理图像和文本信息。数据集不仅包含漫画中的文本内容，还标注了文本的位置、对话顺序以及角色关联信息。此外，数据集支持多语言处理，尤其适用于英语漫画的分析。其独特的对话分割技术使得角色对话的转录更加准确，为漫画内容的理解和生成提供了强有力的支持。

使用方法

使用manga-whisperer数据集时，用户可以通过加载预训练模型对漫画图像进行文本检测和转录。具体步骤包括读取图像、调用模型进行目标检测和OCR处理，最终生成文本转录结果和可视化标注。用户还可以根据需求调整模型参数，以优化转录效果。数据集的使用方法简单直观，适用于漫画内容分析、多模态研究以及自动化转录工具的开发。

背景与挑战

背景概述

Manga-Whisperer数据集由牛津大学的Ragav Sachdeva和Andrew Zisserman于2024年创建，旨在解决漫画图像中的自动转录问题。该数据集结合了目标检测、光学字符识别（OCR）、聚类和对话分割等技术，致力于从漫画图像中提取文本并生成相应的转录文本。其核心研究问题在于如何高效且准确地识别漫画中的文字内容，并将其转化为可读的文本格式。这一研究不仅推动了漫画数字化处理的进程，还为图像处理和自然语言处理领域的交叉研究提供了新的视角。

当前挑战

Manga-Whisperer数据集面临的挑战主要集中在两个方面。首先，漫画图像中的文本通常以非标准字体、不规则排列或艺术化形式呈现，这对OCR技术的准确性提出了极高要求。其次，漫画中的对话气泡和文字区域往往与图像背景高度融合，增加了目标检测的难度。在数据集构建过程中，研究人员还需解决如何高效标注大量漫画图像的问题，以及如何处理不同语言和文化背景下的漫画文本差异。这些挑战使得该数据集在推动相关技术发展的同时，也为未来的研究提供了丰富的探索空间。

常用场景

经典使用场景

在漫画研究领域，manga-whisperer数据集被广泛应用于自动生成漫画转录文本的场景。该数据集通过结合对象检测、光学字符识别（OCR）和聚类技术，能够自动识别漫画中的文本区域并生成相应的转录文本。这一过程不仅提高了漫画内容分析的效率，还为后续的文本挖掘和语义分析提供了基础。

实际应用

在实际应用中，manga-whisperer数据集为漫画出版商和数字图书馆提供了强大的技术支持。出版商可以利用该数据集自动生成漫画的转录文本，从而提高翻译和本地化的效率。数字图书馆则可以通过该数据集实现漫画内容的全文检索，提升用户体验。此外，该数据集还为漫画研究者提供了丰富的素材，推动了漫画研究的发展。

衍生相关工作

manga-whisperer数据集的发布催生了一系列相关研究工作。例如，基于该数据集的OCR技术改进研究，进一步提升了文本识别的准确率。此外，研究者还利用该数据集开发了新的对话分割算法，能够更精确地识别漫画中的角色对话。这些衍生工作不仅丰富了漫画内容分析的技术手段，还为其他领域的文本识别和语义分析提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集