Danbooru2018 Anime Character Recognition Dataset
收藏github2024-05-18 更新2024-05-31 收录
下载链接:
https://github.com/grapeot/Danbooru2018AnimeCharacterRecognitionDataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于Danbooru2018数据集,用于动漫角色识别,包含100万张图像和7万个角色。数据集经过处理,生成了100万张头部图像及其对应的角色标签。数据集中的角色标签分布呈长尾分布,平均每个标签有13.85张图像。
This dataset is based on the Danbooru2018 dataset and is utilized for anime character recognition, comprising 1 million images and 70,000 characters. The dataset has been processed to generate 1 million headshot images along with their corresponding character labels. The distribution of character labels within the dataset exhibits a long-tail distribution, with an average of 13.85 images per label.
创建时间:
2019-07-02
原始信息汇总
Danbooru 2018 Anime Character Recognition Dataset 概述
数据集描述
- 数据集名称:Danbooru 2018 Anime Character Recognition Dataset
- 数据集来源:基于 Danbooru 2018 数据集处理而成。
- 数据集内容:包含100万张头部图像及其对应的70,000个角色标签。
- 数据集用途:用于训练和评估动漫角色识别算法。
数据处理方法
- 标签筛选:仅保留角色类别标签。
- 图像筛选:保留仅含一个角色标签的图像。
- 头部检测:使用特定模型提取头部边界框。
- 图像去重:去除检测到多个头部边界框的图像。
- 最终数据量:0.97M图像,70k标签。
数据分布与可视化
- 标签-图像数量分布:可视化展示,仅显示前100个标签。
- 前20个热门标签:包括 hatsune_miku, hakurei_reimu 等。
- 分布特点:长尾分布,平均每个标签13.85张图像。
数据集使用
- 核心数据文件:
faces.tsv,包含文件名、标签ID和头部检测结果。 - 标签文本文件:
tagIds.tsv,提供标签ID对应的文本。 - 面部图像下载:可通过
rsync下载预处理的面部图像压缩包。
引用信息
- 数据集作者:Yan Wang
- 发布时间:2019年7月
- 引用格式:请参考README文件中的BibTeX格式。
基线模型
- 模型描述:使用ResNet18模型,结合ArcFace损失,测试准确率达到37.3%。
- 数据分割:提供训练、验证和测试集的分割文件。
开放问题
- 测试集验证:测试集需进行人工验证。
- 面部对齐:需进一步优化面部对齐工作。
搜集汇总
数据集介绍

构建方式
该数据集基于Danbooru 2018原始数据集构建,通过筛选出仅包含单一角色标签的图像,并使用专门的头部分割模型提取头部边界框,最终生成约100万张头部图像及其对应的角色标签。此过程确保了每张图像仅关联一个角色标签,从而为角色识别任务提供了高质量的数据基础。
特点
该数据集包含约7万种不同的角色标签,其中部分标签的图像数量呈现长尾分布,平均每个标签拥有13.85张图像。尽管存在大量仅有一张图像的标签,但这些数据仍被保留以确保数据的完整性。此外,数据集的构建过程中特别关注了头部图像的提取,使得数据在角色识别任务中具有较高的实用价值。
使用方法
数据集的核心部分存储在`faces.tsv`文件中,包含图像文件名、标签ID及头部检测结果。用户需从原始Danbooru数据集中获取图像,并结合`tagIds.tsv`文件解析标签文本。此外,预先裁剪的头部图像可通过`rsync`命令下载。数据集提供了训练、验证和测试集的划分,便于用户进行模型训练与评估。
背景与挑战
背景概述
Danbooru2018 Anime Character Recognition Dataset 是一个基于 Danbooru 2018 数据集的动漫角色识别数据集,由 Yan Wang 于 2019 年创建。该数据集通过对原始 Danbooru 数据集进行处理,提取了约 100 万张头部图像及其对应的 7 万个角色标签,旨在为动漫角色识别算法提供训练和评估的基础。该数据集的构建不仅丰富了动漫角色识别领域的研究资源,还为相关算法提供了具有挑战性的基准测试数据。
当前挑战
该数据集在构建过程中面临多项挑战。首先,原始数据集中存在大量多角色标签的图像,导致需要通过复杂的过滤和处理步骤来确保每张图像仅对应一个角色标签。其次,头部检测的准确性直接影响数据集的质量,而多头部检测的情况进一步增加了数据处理的复杂性。此外,数据集的标签分布呈现长尾效应,部分角色标签仅对应极少数图像,这对模型的泛化能力提出了更高的要求。最后,测试集的准确性尚未经过人工验证,未来需要进一步完善以确保评估的可靠性。
常用场景
经典使用场景
Danbooru2018 Anime Character Recognition Dataset 主要用于动漫角色识别任务。该数据集通过从原始Danbooru2018数据集中提取头部图像及其对应的标签,构建了一个包含约100万张头部图像和7万个角色标签的庞大资源库。这一数据集特别适用于训练和评估动漫角色识别算法,尤其是在需要高精度识别的场景中,如动漫角色的自动标注和分类。
解决学术问题
该数据集解决了动漫角色识别领域中的多个关键学术问题。首先,它为研究人员提供了一个大规模、多样化的数据集,用于训练和验证角色识别模型,从而推动了动漫角色识别技术的进步。其次,通过提供详细的头部检测结果和标签信息,该数据集有助于解决角色识别中的长尾分布问题,即少数热门角色占据大量数据,而多数角色数据稀缺的问题。
衍生相关工作
基于Danbooru2018 Anime Character Recognition Dataset,已衍生出多项经典工作。例如,研究人员利用该数据集开发了基于深度学习的动漫角色识别模型,显著提升了识别精度。此外,该数据集还被用于探索动漫角色特征的自动提取和分析,推动了动漫角色设计与创作的自动化进程。这些衍生工作不仅丰富了动漫角色识别领域的研究内容,也为相关应用提供了坚实的技术基础。
以上内容由遇见数据集搜集并总结生成



