CyberHarem/asashio_azurlane
收藏Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/asashio_azurlane
下载链接
链接失效反馈官方服务:
资源简介:
这是asashio/朝潮/朝潮 (Azur Lane)的数据集,包含59张图像及其标签。图像从多个网站(如danbooru、pixiv、zerochan等)爬取,爬取系统由DeepGHS团队提供支持。数据集的核心标签包括`animal_ears, blue_eyes, long_hair, blue_hair, ahoge, animal_ear_fluff, bangs, cat_ears, breasts, hair_ornament, ribbon, hair_ribbon, hair_flower, tail, cat_tail, hair_between_eyes, cat_girl, bow, braid`。README还提供了不同版本的下载链接,包括原始数据、不同分辨率的图像数据集以及经过裁剪的数据集。此外,还提供了如何使用waifuc加载原始数据集的代码示例。
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集名称
- Dataset of asashio/朝潮/朝潮 (Azur Lane)
数据集内容
- 包含内容: 59张图像及其标签
- 核心标签: animal_ears, blue_eyes, long_hair, blue_hair, ahoge, animal_ear_fluff, bangs, cat_ears, breasts, hair_ornament, ribbon, hair_ribbon, hair_flower, tail, cat_tail, hair_between_eyes, cat_girl, bow, braid
数据集版本与下载
| 名称 | 图像数量 | 大小 | 下载链接 | 类型 | 描述 |
|---|---|---|---|---|---|
| raw | 59 | 72.78 MiB | 下载链接 | Waifuc-Raw | 包含元信息的原始数据(最小边对齐至1400像素,如果更大)。 |
| 800 | 59 | 43.60 MiB | 下载链接 | IMG+TXT | 短边不超过800像素的数据集。 |
| stage3-p480-800 | 138 | 90.77 MiB | 下载链接 | IMG+TXT | 三阶段裁剪数据集,区域不小于480x480像素。 |
| 1200 | 59 | 63.71 MiB | 下载链接 | IMG+TXT | 短边不超过1200像素的数据集。 |
| stage3-p480-1200 | 138 | 127.08 MiB | 下载链接 | IMG+TXT | 三阶段裁剪数据集,区域不小于480x480像素。 |
数据集加载
-
加载工具: waifuc
-
加载代码示例: python import os import zipfile
from huggingface_hub import hf_hub_download from waifuc.source import LocalSource
下载原始档案文件
zip_file = hf_hub_download( repo_id=CyberHarem/asashio_azurlane, repo_type=dataset, filename=dataset-raw.zip, )
提取文件至目录
dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)
使用waifuc加载数据集
source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])
数据集标签集群
| # | 样本数 | 图像1 | 图像2 | 图像3 | 图像4 | 图像5 | 标签 |
|---|---|---|---|---|---|---|---|
| 0 | 9 | ![]() |
![]() |
![]() |
![]() |
![]() |
1girl, looking_at_viewer, solo, blush, cleavage, kimono, bare_shoulders, obi, wide_sleeves, feather_boa, holding_umbrella, official_alternate_costume, oil-paper_umbrella, large_breasts, medium_breasts, white_background, white_flower, white_thighhighs, blue_umbrella, simple_background |
| 1 | 20 | ![]() |
![]() |
![]() |
![]() |
![]() |
blush, jingle_bell, looking_at_viewer, blue_skirt, 1girl, bare_shoulders, blue_sailor_collar, pleated_skirt, wide_sleeves, long_sleeves, detached_sleeves, white_shirt, medium_breasts, ribbon-trimmed_legwear, white_background, white_thighhighs, blue_ribbon, closed_mouth, japanese_clothes, neck_bell, sash, choker, frilled_skirt, solo_focus |
| 2 | 6 | ![]() |
![]() |
![]() |
![]() |
![]() |
1girl, blush, long_sleeves, looking_at_viewer, pink_flower, pleated_skirt, solo, very_long_hair, black_sweater, black_thighhighs, blue_ribbon, hairclip, plaid_skirt, school_uniform, black_ribbon, black_skirt, blue_bow, brown_footwear, closed_mouth, collared_shirt, full_body, side_ponytail, white_shirt, chibi, grey_skirt, shoes, sidelocks, simple_background, sleeves_past_wrists, white_background |
搜集汇总
数据集介绍

构建方式
在二次元图像生成领域,高质量、标注精细的角色数据集是模型微调的关键。该数据集聚焦于《碧蓝航线》中的角色“朝潮”,共收录59张图像及其对应的标签。数据采集过程借助自动化爬取系统,从Danbooru、Pixiv、Zerochan等多个知名图站获取原始素材。为确保数据质量,系统对原始图像进行了尺寸对齐处理,较长的边被统一缩放至1400像素。同时,数据集中保留了角色核心标签,如兽耳、蓝眼、长发、蓝发、呆毛等,并进行了精简处理,以突出角色特征。
特点
该数据集的一大特色在于其多样化的预处理版本,以满足不同训练场景的需求。除了包含元信息的原始数据包外,还提供了短边不超过800像素和1200像素的标准版本。尤为值得一提的是,数据集引入了三阶段裁剪版本,通过智能区域裁剪确保图像有效区域不小于480x480像素,从而生成更多样化的训练样本。此外,数据集还提供了基于标签的聚类结果,将图像按服装风格(如和服、水手服、校服等)分组,便于研究者进行细粒度的风格迁移或特定服装的训练。
使用方法
数据集的使用方式灵活多样。对于熟悉waifuc框架的用户,可以直接加载原始数据包,通过简单的代码即可遍历图像及其标签信息。具体而言,用户可通过Hugging Face Hub下载压缩包,解压后利用LocalSource加载,从而轻松获取每张图像的元数据和标注标签。此外,数据集提供了多个预处理的ZIP包,用户可根据任务需求直接下载对应版本,省去了自行预处理的繁琐步骤。无论是进行文本到图像的生成训练,还是进行角色识别与分类任务,该数据集都能提供便捷的支持。
背景与挑战
背景概述
在动漫与二次元文化蓬勃发展的当下,基于文本到图像生成模型(text-to-image)的虚拟角色创作已成为计算机视觉与人工智能交叉领域的研究热点。由CyberHarem团队于近期构建的asashio_azurlane数据集,聚焦于《碧蓝航线》中的人气角色“朝潮”,旨在为角色定制化图像生成提供高质量的标注数据。该数据集由DeepGHS团队开发的自动化爬虫系统从Danbooru、Pixiv、Zerochan等多个知名二次元图站采集而成,包含59张精心筛选的图像及对应的标签信息。核心标签涵盖兽耳、蓝瞳、长发、蓝发、呆毛等标志性特征,并经过剪枝优化以提升模型训练效率。这一数据集的出现,不仅为二次元角色生成任务提供了标准化基准,也推动了动漫图像领域从通用模型向特定角色精细建模的演进。
当前挑战
该数据集面临的核心挑战在于:首先,领域问题层面,文本到图像生成模型在处理具有高度风格化与复杂装饰的二次元角色时,常面临细节失真、特征混淆等难题,尤其是朝潮这类包含兽耳、猫尾、和服等多元素复合的角色,模型需精准捕捉并还原其独特的视觉语义。其次,数据集构建过程中,由于图像来源分散于多个平台,存在版权归属模糊、图像分辨率与质量参差不齐的问题,自动爬取与人工筛选的平衡难以把控。此外,仅59张的小样本规模限制了模型泛化能力,易导致过拟合,且标签体系依赖人工预设,可能遗漏部分隐含特征(如特定姿势或场景),从而影响生成图像的角色一致性。
常用场景
经典使用场景
在文本到图像生成领域,CyberHarem/asashio_azurlane数据集为特定动漫角色‘朝潮’(出自《碧蓝航线》)的精细化生成提供了高质量的图像与标签资源。研究者常利用其包含的59张精心标注的图像,结合标签信息(如猫耳、蓝发、丝带等特征),对扩散模型或生成对抗网络进行微调,以实现角色风格一致、细节丰富的图像生成。该数据集通过提供多种分辨率版本(如800px、1200px)和裁剪版本,支持不同尺度的训练需求,成为角色定制化生成任务中的经典基准数据源。
解决学术问题
该数据集有效解决了动漫角色生成研究中数据稀缺与标注不一致的学术难题。通过自动化爬取与多源整合,它提供了涵盖多种姿态、服饰和背景的标准化图像集合,标签经过精炼去噪,避免了冗余信息干扰。研究者可借此探索条件生成模型(如Stable Diffusion)在角色特定属性保持上的表现,推动了对细粒度特征解耦、风格迁移和少样本学习等核心问题的深入理解。其意义在于为动漫图像生成领域树立了可复现的评估标杆,促进了生成质量与多样性的量化分析。
衍生相关工作
该数据集衍生了一系列经典工作,尤其是在角色概念学习与个性化生成方向。例如,基于其标签聚类结果(如和服、校服等不同装束),研究者开发了多模态条件生成框架,实现了同一角色在不同风格下的可控生成。此外,该数据集被用于验证Textual Inversion、DreamBooth等微调方法的有效性,催生了针对动漫角色的高效参数适配策略。其爬取与标注流程也被后续工作(如waifuc工具链)广泛借鉴,形成了从数据采集到模型训练的一体化研究范式,深刻影响了二次元图像生成领域的实验方法论。
以上内容由遇见数据集搜集并总结生成


















