CyberHarem/hanae_bluearchive
收藏Hugging Face2024-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/hanae_bluearchive
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于hanae/朝顔ハナエ/花绘(Blue Archive)角色的数据集,包含265张图像及其标签。图像来源于多个网站(如danbooru、pixiv、zerochan等),并由DeepGHS团队开发的自动爬取系统收集。核心标签包括`purple_hair, long_hair, hair_ornament, breasts, twintails, halo, blue_eyes, hairclip, large_breasts, fang, hat, skin_fang, very_long_hair, nurse_cap, bandaid_hair_ornament, heart_hair_ornament`。数据集提供了不同版本的数据包下载链接,包括原始数据、1200像素版本和三阶段裁剪版本。此外,还提供了如何使用waifuc加载原始数据集的代码示例。
这是一个关于hanae/朝顔ハナエ/花绘(Blue Archive)角色的数据集,包含265张图像及其标签。图像来源于多个网站(如danbooru、pixiv、zerochan等),并由DeepGHS团队开发的自动爬取系统收集。核心标签包括`purple_hair, long_hair, hair_ornament, breasts, twintails, halo, blue_eyes, hairclip, large_breasts, fang, hat, skin_fang, very_long_hair, nurse_cap, bandaid_hair_ornament, heart_hair_ornament`。数据集提供了不同版本的数据包下载链接,包括原始数据、1200像素版本和三阶段裁剪版本。此外,还提供了如何使用waifuc加载原始数据集的代码示例。
提供机构:
CyberHarem
原始信息汇总
数据集概述:hanae/朝顔ハナエ/花绘 (Blue Archive)
数据集基本信息
- 名称: hanae/朝顔ハナエ/花绘 (Blue Archive)
- 包含内容: 265张图像及其标签
- 核心标签: purple_hair, long_hair, hair_ornament, breasts, twintails, halo, blue_eyes, hairclip, large_breasts, fang, hat, skin_fang, very_long_hair, nurse_cap, bandaid_hair_ornament, heart_hair_ornament
- 许可: MIT
- 任务类别: text-to-image
- 标签: art, not-for-all-audiences
- 大小类别: n<1K
数据集包信息
包列表
| 名称 | 图像数量 | 大小 | 下载链接 | 类型 | 描述 |
|---|---|---|---|---|---|
| raw | 265 | 397.85 MiB | 下载链接 | Waifuc-Raw | 包含元信息的原始数据(如果较大,则最小边对齐到1400)。 |
| 1200 | 265 | 337.22 MiB | 下载链接 | IMG+TXT | 短边不超过1200像素的数据集。 |
| stage3-p480-1200 | 695 | 707.25 MiB | 下载链接 | IMG+TXT | 三阶段裁剪数据集,区域不小于480x480像素。 |
数据集加载
使用Waifuc加载原始数据集
提供了一个Python代码示例,用于下载和加载原始数据集,包括带有标签的图像,适用于Waifuc工具。
python import os import zipfile
from huggingface_hub import hf_hub_download from waifuc.source import LocalSource
下载原始存档文件
zip_file = hf_hub_download( repo_id=CyberHarem/hanae_bluearchive, repo_type=dataset, filename=dataset-raw.zip, )
提取文件到你的目录
dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)
使用waifuc加载数据集
source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])
数据集标签集群
集群列表
| # | 样本数 | 图像1 | 图像2 | 图像3 | 图像4 | 图像5 | 标签 |
|---|---|---|---|---|---|---|---|
| 0 | 11 | ![]() |
![]() |
![]() |
![]() |
![]() |
1girl, blush, heart, holly_hair_ornament, long_sleeves, looking_at_viewer, low_twintails, official_alternate_costume, plaid_skirt, red_sweater, ribbed_sweater, smile, christmas, open_mouth, solo, turtleneck_sweater, white_pantyhose, red_skirt, fake_antlers, hood, simple_background, white_background, horns, sitting |
| 1 | 5 | ![]() |
![]() |
![]() |
![]() |
![]() |
1girl, blush, christmas, fake_antlers, heart, holding_sack, horns, long_sleeves, looking_at_viewer, low_twintails, official_alternate_costume, plaid_skirt, red_mittens, red_skirt, red_sweater, ribbed_sweater, solo, turtleneck_sweater, holly_hair_ornament, open_mouth, simple_background, :d, pom_pom_(clothes), white_background, white_pantyhose, arm_up, bag, belt, gift, hood_up, pink_background, red_gloves, reindeer_antlers, stuffed_animal |
| 2 | 6 | ![]() |
![]() |
![]() |
![]() |
![]() |
1boy, 1girl, blush, hetero, nipples, penis, solo_focus, sweater_lift, vaginal, white_pantyhose, bar_censor, christmas, holly_hair_ornament, missionary, on_back, open_mouth, plaid_skirt, pov, pussy, spread_legs, torn_pantyhose, clothed_sex, fake_antlers, red_mittens, smile, long_sleeves, looking_at_viewer, red_headwear, red_skirt, ribbed_sweater, santa_hat, skirt_lift |
| 3 | 8 | ![]() |
![]() |
![]() |
![]() |
![]() |
1boy, 1girl, blush, hetero, nipples, paizuri, pov, solo_focus, breasts_squeezed_together, open_mouth, huge_breasts, looking_at_viewer, nurse, oppai_loli, penis, smile, white_headwear, heart, collarbone, cross_print, crossed_bandaids, cum_on_breasts, ejaculation, projectile_cum, bar_censor, breasts_out, infirmary, long_sleeves, open_clothes |
| 4 | 20 | ![]() |
![]() |
![]() |
![]() |
![]() |
cheerleader, visor_cap, 1girl, blush, open_mouth, heart, official_alternate_costume, pleated_skirt, smile, looking_at_viewer, sleeveless, white_thighhighs, holding_pom_poms, simple_background, solo, white_background, white_skirt, navel, crop_top, miniskirt, sticker_on_face, blue_shirt, midriff, sailor_collar, sweat |
| 5 | 5 | ![]() |
![]() |
![]() |
![]() |
![]() |
1girl, blush, hetero, mismatched_legwear, navel, nipples, nude, on_back, striped_clothes, striped_thighhighs, white_thighhighs, 1boy, bandaid, oppai_loli, sex, solo_focus, spread_legs, vaginal, missionary, open_mouth, pov, white_sailor_collar, anus, bed_sheet, cum_in_pussy, looking_at_viewer, penis, smile, uncensored |
| 6 | 76 | ![]() |
![]() |
![]() |
![]() |
![]() |
1girl, solo, pink_jacket, blush, bandaid, looking_at_viewer, smile, long_sleeves, open_mouth, dress, simple_background, open_jacket, white_sailor_collar, white_background, bow, striped_clothes, mismatched_legwear, striped_thighhighs, white_thighhighs, armband, nurse |
搜集汇总
数据集介绍

构建方式
在动漫角色图像数据集的构建领域,CyberHarem/hanae_bluearchive数据集通过自动化爬虫技术,从Danbooru、Pixiv及Zerochan等多个知名二次元艺术平台系统性地采集了265幅以《碧蓝档案》角色“花绘”为主题的图像。原始数据经过预处理,确保图像最小边缘对齐至1400像素,并剔除了角色的核心标签,以优化数据纯度。该过程依托DeepGHS团队开发的先进爬取工具,实现了高效、结构化的数据收集与整理。
特点
该数据集以角色“花绘”为核心,呈现了多样化的视觉特征与场景设定,涵盖圣诞装扮、啦啦队服及护士服等多种服饰主题。图像均附有精细的标签标注,如发色、瞳色、服饰细节等,支持细粒度内容分析。数据集提供三种规格版本:原始数据包、短边不超过1200像素的调整版本,以及经过三阶段裁剪、区域不小于480x480像素的增强版本,满足不同分辨率与训练需求。此外,数据集中还包含了基于标签聚类的结果,有助于挖掘角色在不同情境下的视觉模式。
使用方法
研究人员可通过Hugging Face平台直接下载数据包的ZIP文件,并利用提供的Python代码示例加载原始数据集。该示例使用waifuc工具库中的LocalSource模块,能够便捷地读取图像及其元数据标签。对于机器学习任务,用户可根据需要选择不同尺寸的数据包,以适应模型输入要求。数据集的标签聚类表格为视觉内容分析提供了结构化参考,支持角色特征挖掘、图像生成模型训练或跨模态学习等应用场景。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的时代,针对特定动漫角色的高质量图像数据集成为训练定制化文本到图像模型的关键资源。CyberHarem/hanae_bluearchive 数据集由 DeepGHS 团队构建,专注于手机游戏《蔚蓝档案》中的角色“花绘”(Hanae)。该数据集通过自动化爬虫系统从 Danbooru、Pixiv 等主流艺术社区采集了265张图像,并进行了细致的标签标注与修剪,核心标签涵盖了角色标志性的发色、瞳色、服饰及配饰等视觉特征。其创建旨在为角色驱动的生成式AI研究提供结构化的视觉-文本配对数据,支持风格化图像合成、角色一致性生成等前沿探索,体现了社区驱动数据收集在细分领域模型训练中的实践价值。
当前挑战
该数据集致力于解决动漫角色特定化图像生成中的挑战,即如何在有限样本下精确捕捉并复现角色的复杂视觉属性与多样姿态。构建过程中的首要挑战在于数据源的异构性,从多个平台爬取的图像在分辨率、画风及标签体系上存在显著差异,需进行繁琐的清洗、对齐与标准化处理。其次,标签系统的构建面临语义粒度与一致性的平衡难题,既要保留角色核心特征,又需过滤冗余或冲突的标注。此外,数据集中包含部分成人内容,对数据的合规使用与伦理审查提出了额外要求,增加了其在普适性研究场景中应用的复杂性。
常用场景
经典使用场景
在动漫风格图像生成领域,CyberHarem/hanae_bluearchive数据集以其精心标注的二次元角色图像,为文本到图像的生成模型提供了高质量的微调素材。该数据集聚焦于《碧蓝档案》中的角色花绘,通过265张带有详细属性标签的图像,支持模型学习特定角色的视觉特征与风格一致性。研究者常利用此类数据集,探索生成模型在保持角色身份一致性的前提下,实现多样化姿态、服饰与场景的合成能力,从而推动动漫风格图像生成技术的精细化发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在动漫风格生成模型的优化与评估框架构建。例如,基于此类高质量角色数据集的研究,催生了针对角色身份保持的损失函数设计、跨姿态与服饰的属性迁移算法,以及生成图像的艺术风格评价指标。这些工作不仅深化了生成模型在动漫领域的应用,也为后续更大规模的动漫角色数据集构建与生成技术标准化提供了方法论参考,形成了从数据标注到模型优化的完整研究链条。
数据集最近研究
最新研究方向
在动漫风格图像生成领域,CyberHarem/hanae_bluearchive数据集作为特定角色的视觉资料库,正推动着生成式人工智能在风格化内容创作的前沿探索。该数据集通过精细的标签聚类与多尺度图像处理,为研究者提供了研究细粒度属性控制与跨模态对齐的宝贵资源。当前研究热点集中于利用此类高质量标注数据,提升文本到图像模型在角色一致性、服饰细节还原及情感表达方面的生成能力,尤其在二次元文化数字内容自动生成中展现出显著的应用潜力。这些进展不仅深化了生成模型对复杂语义的理解,也为个性化数字艺术创作提供了技术支撑,在娱乐产业与创意工具开发领域产生了深远影响。
以上内容由遇见数据集搜集并总结生成






































