AnimeText

Name: AnimeText
Creator: DeepGHS (Deep Generative anime Hobbyist Syndicate)
Published: 2025-10-09 16:47:52
License: 暂无描述

arXiv2025-10-09 更新2025-11-19 收录

下载链接：

https://hf-mirror.com/datasets/deepghs/AnimeText

下载链接

链接失效反馈

官方服务：

资源简介：

AnimeText是一个大规模的数据集，包含735,000张图像和4,200,000个标注文本块，专为动漫场景文本检测而设计。该数据集具有分层标注和为动漫场景定制的难负样本。AnimeText为动漫场景提供了大规模、高多样性的图像集合，每个图像平均包含5.77个文本实例，其中一些图像包含超过50个文本实例。数据集内容覆盖了多种语言，包括英语、中文、日语、韩语和俄语。AnimeText通过一个三阶段标注流程，大大减少了工作负担，并采用预训练模型与人工审查相结合的多轮过程来加速标注。AnimeText旨在解决现有文本检测模型在动漫场景中性能不佳的问题，为动漫场景文本检测提供可靠的基准。

AnimeText is a large-scale dataset designed specifically for anime scene text detection, which comprises 735,000 images and 4,200,000 annotated text blocks. This dataset features hierarchical annotations and hard negative samples tailored for anime scenarios. AnimeText provides a large-scale, highly diverse image collection for anime scenes, with each image containing an average of 5.77 text instances, and some images even hosting over 50 text instances. The dataset covers multiple languages including English, Chinese, Japanese, Korean and Russian. AnimeText adopts a three-stage annotation pipeline to substantially reduce the workload, and employs a multi-round procedure combining pretrained models and manual review to expedite the annotation process. AnimeText aims to address the subpar performance of existing text detection models in anime scenes, providing a reliable benchmark for anime scene text detection.

提供机构：

DeepGHS (Deep Generative anime Hobbyist Syndicate)

创建时间：

2025-10-09

搜集汇总

数据集介绍

构建方式

在动漫场景文本检测领域，传统数据集主要针对自然或文档场景，难以应对动漫图像中文本风格多样、布局不规则的特点。AnimeText数据集通过三阶段标注流程构建：首先从大规模动漫图像中手动筛选含文本图像并进行边界框标注；随后针对易混淆的硬负样本进行专门标注，利用基于CLIP模型的分类器提升样本区分度；最后通过分割模型生成多边形标注并建立多层次粒度注释，形成包含73.5万图像和420万文本实例的大规模数据集。

特点

该数据集显著区别于自然场景文本数据，其文本实例具有高度艺术化特征，涵盖手写体、装饰性字体等多语言文本形式。空间分布上文本多集中于图像边缘区域，与自然场景的中心聚集模式形成鲜明对比。数据集中包含大量高密度文本图像，部分样本单图文本实例超过50个，同时兼具高分辨率特性与独特的色彩分布统计特征，为模型应对复杂动漫场景提供充分多样性。

使用方法

作为专为动漫场景设计的文本检测基准，该数据集支持跨领域模型评估与训练优化。研究人员可将其作为训练集提升模型对艺术化文本的检测能力，或作为测试集验证模型在复杂动漫场景的泛化性能。数据集中提供的多层次粒度标注支持从字符级到文本块级的检测任务，而硬负样本标注则有助于降低模型误检率，为多模态大语言模型的文本理解模块提供重要数据支撑。

背景与挑战

背景概述

动漫场景文本检测作为计算机视觉领域的重要分支，在多媒体检索与多模态大模型应用中具有关键价值。由中山大学与DeepGHS研究联盟于2025年联合发布的AnimeText数据集，针对动漫图像中艺术化文本的独特属性，构建了包含73.5万图像与420万文本标注的大规模基准。该数据集突破传统自然场景文本检测的局限，通过层次化标注架构与硬负样本设计，有效应对动漫文本的多样字体风格、不规则空间布局及多语言混杂特性，为提升跨域文本检测模型的泛化能力提供了重要数据支撑。

当前挑战

在动漫文本检测领域，核心挑战源于艺术化文本与装饰元素的视觉混淆。具体表现为：手写体与风格化字体在颜色饱和度和结构复杂度上远超自然场景文本，字符间距的随机分布破坏传统文本检测模型的几何假设，大量符号化图案与文字在边缘特征上的高度相似性导致误检率激增。数据构建过程中，面对动漫图像特有的高分辨率特性与多语言混合标注需求，研究团队通过三阶段标注流程克服了伪标签噪声干扰，并创新性地引入硬负样本分类器解决装饰元素误判问题，最终实现对复杂动漫场景文本的精准定位。

常用场景

经典使用场景

在动漫视觉内容分析领域，AnimeText数据集为复杂场景下的文本检测任务提供了关键支撑。该数据集通过包含73.5万张图像与420万标注文本块，专门针对动漫场景中艺术化字体、不规则布局及多语言混杂的特点进行优化。其经典应用体现在训练深度神经网络模型，使其能够准确识别动漫图像中手写体、装饰性文字以及与背景高度融合的文本区域，显著提升了在动态构图和复杂视觉干扰下的检测鲁棒性。

衍生相关工作

基于AnimeText的标注范式和规模优势，衍生出多项文本检测创新研究。例如结合分割模型（SAM）的多边形标注流程被应用于曲线文本检测任务，分层标注思想启发了跨媒体文档结构解析研究。在模型层面，以该数据集训练的YOLOv11与LRANet变体在动漫文本检测基准中取得突破性进展，其困难负样本分类器设计更成为跨域适应研究的重要参考范式。

数据集最近研究