大规模动漫风格识别数据集 (LSASRD)|动漫风格识别数据集|图像处理数据集

arXiv2022-04-29 更新2024-06-21 收录

动漫风格识别

图像处理

下载链接：

https://github.com/nkjcqvcpi/ASR

下载链接

链接失效反馈

资源简介：

大规模动漫风格识别数据集(LSASRD)由华侨大学工程学院创建，包含20,937张来自190部动漫作品的图像，每部作品至少包含十个不同角色。数据集涵盖了从1928年至2021年的作品，涉及多种风格和角色类型，如人类、人形和非人类角色。创建过程中，研究人员从互联网收集图像，并通过手工标注确保数据质量。LSASRD旨在推动动漫图像的风格识别研究，特别是在解决不同角色和作品间的风格差异问题上，为动漫内容的推荐和图像检索提供支持。

提供机构：

华侨大学工程学院

创建时间：

2022-04-29

AI搜集汇总

数据集介绍

构建方式

大规模动漫风格识别数据集（LSASRD）的构建过程始于从190部动漫作品中收集20,937张图像，每部作品至少包含十个不同的角色。数据来源包括互联网上的动漫、漫画、游戏等，确保了数据集的多样性和广泛性。为了控制场景和技术因素的不确定性，所有图像仅包含角色的面部部分，并经过裁剪和调整至256x256像素。数据集通过手动标注工具进行标注，标注内容包括作品名称、角色身份、性别、种族等元数据，以提供丰富的上下文信息。

特点

LSASRD数据集的特点在于其规模庞大且具有挑战性。数据集涵盖了从1928年至2021年的190部动漫作品，包含1,829个角色，覆盖了13个国家和地区的不同风格。数据集中的图像具有复杂的照明条件、多样的姿态、戏剧化的色彩和夸张的构图，这些因素增加了识别的难度。此外，数据集还设计了跨角色协议，要求查询集和图库集中的图像必须来自不同的角色，以验证模型是否真正学习到了绘画风格而非角色特征。

使用方法

LSASRD数据集的使用方法主要包括训练和测试两个阶段。数据集被随机分为训练集和测试集，测试集进一步分为查询集和图库集，确保查询集和图库集中的角色不重叠。为了评估模型的性能，采用了平均逆负惩罚（mINP）、平均精度（mAP）和累积匹配特性（CMC）等指标。此外，数据集还引入了5折交叉验证，以减少数据分布偏差和过拟合问题。研究人员可以使用现有的行人重识别方法（如AGW和TransReID）作为基线模型，并在LSASRD上进行训练和测试，以探索动漫风格识别的挑战性。

背景与挑战

背景概述

大规模动漫风格识别数据集（LSASRD）由华侨大学的研究团队于近年提出，旨在解决动漫风格识别（ASR）这一具有挑战性的计算机视觉问题。该数据集包含20,937张来自190部动漫作品的图像，每部作品至少包含十个不同角色。LSASRD的创建不仅填补了动漫风格识别领域的空白，还为研究图像理解机制提供了丰富的素材。通过跨角色协议，LSASRD要求模型学习抽象的绘画风格，而非角色的具体特征，从而推动了深度学习模型在语义理解能力上的探索。该数据集的影响力不仅限于动漫领域，还为图像检索和信息推荐等应用提供了新的研究方向。

当前挑战

LSASRD面临的挑战主要体现在两个方面。首先，动漫风格识别任务本身具有较大的语义鸿沟，模型需要从复杂的图像内容中提取抽象的绘画风格，而非依赖具体的角色特征。这一任务比传统的生物识别任务（如人脸识别）更具挑战性，因为动漫图像通常包含复杂的照明、多样的姿态、戏剧化的色彩和夸张的构图。其次，在数据集的构建过程中，研究团队面临了图像质量不均、角色风格多样以及跨作品角色相似性等难题。这些因素使得模型难以学习到固有的模式，进一步增加了任务的复杂性。此外，现有的深度学习方法在LSASRD上的表现不佳，表明当前模型在处理抽象语义信息方面仍有较大提升空间。

常用场景

经典使用场景

大规模动漫风格识别数据集（LSASRD）主要用于动漫风格识别（ASR）任务，旨在通过分析不同动漫角色的图像，学习其抽象绘画风格，从而判断这些图像是否来自同一部作品。该数据集通过跨角色协议设计，确保模型能够学习到绘画风格而非角色特征，适用于计算机视觉领域中对动漫图像风格的理解与研究。

衍生相关工作

LSASRD的发布推动了多篇相关研究工作的开展，例如基于Transformer的动漫风格识别模型（TransReID）和基于深度度量学习的动漫图像检索方法（AGW）。这些工作进一步探索了动漫风格识别的技术边界，并提出了新的评估指标和模型优化策略，为动漫图像理解领域的研究提供了重要参考。

数据集最近研究