five

CyberHarem/kokona_bluearchive

收藏
Hugging Face2024-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/kokona_bluearchive
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个名为kokona/春原ココナ/心奈 (Blue Archive)的数据集,包含500张图片及其标签。图片来源于多个网站(如danbooru、pixiv、zerochan等),并由DeepGHS团队的自动爬取系统收集。数据集的核心标签包括长头发、灰发、多色头发、动物耳朵、条纹头发、黑发、光环、非常长的头发、虎耳、胸部、小胸部、棕色眼睛、橙色眼睛等。数据集提供了多个版本的下载链接,包括原始数据、1200像素版本和三阶段裁剪版本。此外,还提供了如何使用waifuc加载原始数据集的代码示例。
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集信息

  • 名称: Dataset of kokona/春原ココナ/心奈 (Blue Archive)
  • 描述: 包含500张图片及其标签的数据集。
  • 核心标签: long_hair, grey_hair, multicolored_hair, animal_ears, streaked_hair, black_hair, halo, very_long_hair, tiger_ears, breasts, small_breasts, brown_eyes, orange_eyes

数据集包列表

名称 图片数量 大小 类型 描述
raw 500 753.30 MiB Waifuc-Raw 包含元信息的原始数据(最小边对齐到1400像素,如果更大)。
1200 500 633.33 MiB IMG+TXT 短边不超过1200像素的数据集。
stage3-p480-1200 1318 1.33 GiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。

标签聚类结果

原始文本版本

# 样本数量 标签
0 35 1girl, black_dress, looking_at_viewer, solo, vertical-striped_clothes, black_jacket, diamond_cutout, simple_background, long_sleeves, blush, vertical-striped_dress, white_background, off_shoulder, chinese_clothes, closed_mouth, white_skirt, sleeveless, clothing_cutout, open_clothes, cowboy_shot, frilled_skirt
1 6 1girl, black_dress, black_jacket, black_socks, full_body, long_sleeves, pelvic_curtain, simple_background, sneakers, solo, vertical-striped_clothes, vertical-striped_dress, diamond_cutout, off_shoulder, standing, white_background, white_footwear, blush, closed_mouth, sleeveless, white_skirt, bag, china_dress, looking_at_viewer, open_clothes, pout
2 5 1boy, 1girl, black_dress, blush, hetero, loli, black_jacket, simple_background, solo_focus, vertical-striped_dress, blue_halo, looking_at_viewer, sleeveless, tongue_out, uncensored, vertical-striped_clothes, licking_penis, open_mouth, pov
3 7 1boy, 1girl, blush, hetero, loli, navel, nipples, open_mouth, penis, spread_legs, blue_halo, completely_nude, pussy, sex, solo_focus, vaginal, bar_censor, tiger_girl, stomach_bulge, yellow_eyes
4 7 1girl, blue_halo, blush, navel, simple_background, loli, micro_bikini, white_bikini, open_mouth, solo, cameltoe, cowboy_shot, looking_at_viewer, tiger_girl, white_background, collarbone, heart, parted_lips
5 18 1girl, looking_at_viewer, pussy, completely_nude, loli, navel, blush, nipples, solo, barefoot, blue_halo, toes, cleft_of_venus, uncensored, anus, closed_mouth, collarbone, feet, flat_chest, simple_background, soles, spread_legs, white_background, open_mouth
6 10 blush, white_apron, 1girl, frilled_apron, simple_background, maid_headdress, blue_halo, enmaided, looking_at_viewer, solo, white_background, black_dress, maid_apron, puffy_short_sleeves, waist_apron, hair_between_eyes, black_footwear, bowtie, full_body, open_mouth, shoes, white_thighhighs
7 12 1girl, alternate_costume, playboy_bunny, strapless_leotard, detached_collar, looking_at_viewer, solo, blush, fake_animal_ears, open_mouth, rabbit_ears, simple_background, white_background, wrist_cuffs, bare_shoulders, black_leotard, covered_navel, highleg_leotard, pantyhose, red_bowtie, blue_halo

表格版本

# 样本数量 标签
0 35 1girl, black_dress, looking_at_viewer, solo, vertical-striped_clothes, black_jacket, diamond_cutout, simple_background, long_sleeves, blush, vertical-striped_dress, white_background, off_shoulder, chinese_clothes, closed_mouth, white_skirt, sleeveless, clothing_cutout, open_clothes, cowboy_shot, frilled_skirt
1 6 1girl, black_dress, black_jacket, black_socks, full_body, long_sleeves, pelvic_curtain, simple_background, sneakers, solo, vertical-striped_clothes, vertical-striped_dress, diamond_cutout, off_shoulder, standing, white_background, white_footwear, blush, closed_mouth, sleeveless, white_skirt, bag, china_dress, looking_at_viewer, open_clothes, pout
2 5 1boy, 1girl, black_dress, blush, hetero, loli, black_jacket, simple_background, solo_focus, vertical-striped_dress, blue_halo, looking_at_viewer, sleeveless, tongue_out, uncensored, vertical-striped_clothes, licking_penis, open_mouth, pov
3 7 1boy, 1girl, blush, hetero, loli, navel, nipples, open_mouth, penis, spread_legs, blue_halo, completely_nude, pussy, sex, solo_focus, vaginal, bar_censor, tiger_girl, stomach_bulge, yellow_eyes
4 7 1girl, blue_halo, blush, navel, simple_background, loli, micro_bikini, white_bikini, open_mouth, solo, cameltoe, cowboy_shot, looking_at_viewer, tiger_girl, white_background, collarbone, heart, parted_lips
5 18 1girl, looking_at_viewer, pussy, completely_nude, loli, navel, blush, nipples, solo, barefoot, blue_halo, toes, cleft_of_venus, uncensored, anus, closed_mouth, collarbone, feet, flat_chest, simple_background, soles, spread_legs, white_background, open_mouth
6 10 blush, white_apron, 1girl, frilled_apron, simple_background, maid_headdress, blue_halo, enmaided, looking_at_viewer, solo, white_background, black_dress, maid_apron, puffy_short_sleeves, waist_apron, hair_between_eyes, black_footwear, bowtie, full_body, open_mouth, shoes, white_thighhighs
7 12 1girl, alternate_costume, playboy_bunny, strapless_leotard, detached_collar, looking_at_viewer, solo, blush, fake_animal_ears, open_mouth, rabbit_ears, simple_background, white_background, wrist_cuffs, bare_shoulders, black_leotard, covered_navel, highleg_leotard, pantyhose, red_bowtie, blue_halo
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集聚焦于游戏《蔚蓝档案》中的角色春原ココナ(心奈),共收录500张图像及其对应标签。数据采集过程通过自研自动化爬虫系统实现,整合了Danbooru、Pixiv、Zerochan等多个图像平台的资源,由DeepGHS团队提供技术支持。图像经过预处理,原始版本将最小边长对齐至1400像素,并提供多种规格的压缩版本,包括短边不超过1200像素的标准版以及基于三阶段裁剪策略生成的480×1200像素区域版本。数据集还剔除了角色核心标签(如长发、灰发、兽耳等),以增强标签的纯净度。
特点
数据集的特点在于其精细化的多版本设计,满足不同训练场景的需求。原始数据包保留完整元信息,便于基于Waifuc框架的灵活加载。1200版本采用图像-标签配对格式,适用于常规文生图模型训练。stage3裁剪版本通过三阶段区域分割技术,确保图像内容主体完整且尺寸适配,特别适合需要高分辨率局部特征的模型。此外,数据集附带了标签聚类结果,可从视觉样本中挖掘角色服饰与场景的潜在模式,为数据增强与风格迁移提供结构化参考。
使用方法
使用者可通过Hugging Face Hub直接下载压缩包,并利用Waifuc库的LocalSource接口加载原始数据集。具体流程包括:使用hf_hub_download函数获取dataset-raw.zip文件,解压至指定目录后,通过LocalSource迭代访问图像及其元信息(如文件名、标签)。对于需要直接训练的场景,可直接使用IMG+TXT格式的1200或stage3版本,无需额外解析。数据集兼容主流文生图框架,标签格式采用Danbooru风格,便于迁移至其他动漫图像生成任务。
背景与挑战
背景概述
该数据集由DeepGHS团队于近年创建,聚焦于《蔚蓝档案》角色春原心奈(Kokona)的视觉素材收集与标注。核心研究问题在于为文本到图像生成任务提供高质量、多视角的角色图像与标签数据,以支撑二次元角色生成模型的训练与评估。数据集涵盖500张图像,源自Danbooru、Pixiv、Zerochan等多个平台,并经由自动化爬取系统整合,其标签体系包含角色外观特征(如发色、耳型、光环)与场景元素。在二次元图像生成领域,该数据集弥补了特定角色专用数据集的空白,为角色一致性生成、属性解耦等研究提供了基础资源,对推动动漫风格文本到图像模型的发展具有参考价值。
当前挑战
当前数据集面临的挑战集中于领域问题与构建过程两个层面。在领域问题方面,如何从有限样本中提取鲁棒的角色特征以应对姿态、服饰与背景的多样性,是文本到图像生成的核心难点,特别是角色属性(如发型、光环)在复杂场景下的泛化能力。在构建过程中,数据爬取自多个非统一来源,面临图像质量参差、标签噪声与不一致性(如标签缺失或冗余)的挑战;同时,自动化聚类结果揭示了内容多样性(如包含成人内容与不同服饰变体),需进一步处理敏感内容过滤与标签标准化,以提升数据集的实用性与安全性。
常用场景
经典使用场景
在二次元图像生成与多模态表征学习领域,CyberHarem/kokona_bluearchive数据集作为《蔚蓝档案》角色春原心奈的专属图像语料库,被广泛用于文本到图像(Text-to-Image)生成任务的模型微调与风格对齐。该数据集包含500张经过精细化标签标注的高质量插画,系统性地覆盖了角色在多种着装、姿态与场景下的视觉呈现,为生成对抗网络(GAN)或扩散模型(如Stable Diffusion)提供了精准的角色概念锚点。研究者常利用其提供的多分辨率版本(如1200像素短边对齐版与三阶段裁剪版)来训练模型捕获角色核心特征,如标志性的虎耳、多色长发与光环,从而在保持角色一致性的前提下实现可控的图像合成。
解决学术问题
该数据集有效解决了动漫角色个性化生成中普遍存在的特征混淆与细节丢失问题。在学术研究中,模型往往难以从海量混合数据中区分特定角色的细微视觉属性,导致生成结果出现身份漂移。CyberHarem/kokona_bluearchive通过高度结构化的标签体系与聚类分析(如基于服装与场景的8个视觉簇),为细粒度特征解耦提供了可控的实验基准。这推动了角色概念解耦、属性编辑以及少样本风格迁移等方向的研究,其意义在于建立了从原始图像采集到特征空间映射的标准化流程,为后续面向虚拟角色生成的可解释性研究奠定了数据基础。
衍生相关工作
围绕该数据集衍生了一系列具有影响力的研究工作。一方面,基于其标签结构与聚类信息,研究者开发了针对动漫角色的自动标注工具与特征提取框架,如DeepGHS团队依托该数据源迭代了图像爬取与标签清洗算法。另一方面,该数据集被用作LoRA(Low-Rank Adaptation)微调技术的典型测试用例,推动了参数高效迁移学习方法在特定角色生成中的优化。此外,部分工作利用其多分辨率版本探索了图像超分辨率与去噪模型在动漫领域的适配性,而聚类簇的多样性则催生了面向角色多风格迁移的对比学习研究,进一步拓展了可控生成的理论边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作