CyberHarem/miyako_bluearchive
收藏Hugging Face2024-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/miyako_bluearchive
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为miyako/月雪ミヤコ/宫子 (Blue Archive),包含500张图片及其标签。图片从多个网站(如danbooru、pixiv、zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集的核心标签包括long_hair, purple_eyes, halo, grey_hair, white_hair, blue_halo, bow, ponytail, breasts, hair_bow, small_breasts。README还提供了数据集的下载链接和加载方法,以及标签聚类结果的列表。
提供机构:
CyberHarem
原始信息汇总
数据集概述:miyako/月雪ミヤコ/宫子 (Blue Archive)
数据集基本信息
- 名称: miyako/月雪ミヤコ/宫子 (Blue Archive)
- 包含内容: 500张图像及其标签
- 核心标签: long_hair, purple_eyes, halo, grey_hair, white_hair, blue_halo, bow, ponytail, breasts, hair_bow, small_breasts
- 许可: MIT
- 任务类别: text-to-image
- 标签: art, not-for-all-audiences
- 大小类别: n<1K
数据集内容详细描述
图像来源
- 图像从多个网站爬取,包括danbooru, pixiv, zerochan等。
- 爬虫系统由DeepGHS Team开发。
数据集包
| 名称 | 图像数量 | 大小 | 下载链接 | 类型 | 描述 |
|---|---|---|---|---|---|
| raw | 500 | 1.00 GiB | 下载链接 | Waifuc-Raw | 包含元信息的原始数据(最小边对齐到1400像素)。 |
| 1200 | 500 | 833.67 MiB | 下载链接 | IMG+TXT | 短边不超过1200像素的数据集。 |
| stage3-p480-1200 | 1384 | 1.73 GiB | 下载链接 | IMG+TXT | 三阶段裁剪数据集,区域不小于480x480像素。 |
数据集使用示例
- 提供使用waifuc加载原始数据集的示例代码。
数据集标签集群
数据集包含多个标签集群,每个集群代表一组具有相似特征的图像。集群详细信息包括图像样本和相关标签,例如服装、场景和情感等。
搜集汇总
数据集介绍

构建方式
在动漫角色图像数据集的构建领域,本数据集聚焦于《碧蓝档案》中的角色宫子(月雪ミヤコ),其构建过程体现了系统化的数据采集与处理流程。原始图像通过自动化爬虫系统从Danbooru、Pixiv、Zerochan等多个知名动漫艺术平台广泛搜集,确保了数据来源的多样性与代表性。采集后的图像经过精心筛选与标注,核心特征标签如长发、紫瞳、光环等被提取并优化,同时提供了三种不同处理版本:原始数据包保留了元信息与高分辨率图像;1200像素版本对图像短边进行标准化处理;三阶段裁剪版本则通过面积不低于480x480像素的裁剪策略,进一步扩充了数据规模,共计1384张图像,为模型训练提供了多层次的视觉素材。
特点
该数据集在动漫角色图像数据集中展现出鲜明的专一性与结构性特征。其核心在于围绕单一角色宫子进行深度构建,包含500张原始图像及扩展版本,确保了角色特征的高度一致性。图像附有精细的标签体系,不仅涵盖发型、瞳色等基础属性,还详细标注了服装、姿态、场景等多元语境信息。数据集中特别提供了基于标签聚类的分析结果,通过视觉示例展示不同主题簇(如泳装、休闲服等),这为研究角色风格变体与视觉模式挖掘提供了直观依据。此外,数据分版本设计兼顾了原始质量与预处理便利,适应不同计算需求下的模型训练与评估。
使用方法
在计算机视觉与生成式模型的研究中,该数据集适用于角色特定的图像生成、风格迁移及标签学习等任务。使用者可通过Hugging Face Hub直接下载压缩包,获取图像与对应文本标签。对于需要元数据的高级应用,可利用提供的Waifuc工具加载原始数据集,通过本地路径读取并迭代访问每张图像的像素数据、文件名及标签列表。数据集的多个版本允许研究者根据分辨率或裁剪需求灵活选择;而聚类分析表则为监督学习或半监督学习中的样本分组、特征分析提供了结构化参考。这种设计使得数据集既能服务于端到端的模型训练,也能支撑细粒度的视觉内容分析。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的时代,角色特定图像数据集的构建成为推动文本到图像模型精细化生成能力的关键。CyberHarem/miyako_bluearchive数据集由DeepGHS团队创建,专注于收录手机游戏《碧蓝档案》中角色“宫子”(月雪ミヤコ)的衍生艺术作品。该数据集的核心研究问题在于如何为特定动漫风格角色构建高质量、多姿态、多服饰的标注图像集合,以支持角色一致性生成、风格迁移等下游任务。其通过系统化爬取Danbooru、Pixiv等主流艺术社区,并利用自动化工具进行元数据提取与清洗,为动漫角色生成研究提供了宝贵的专项数据资源,对提升生成模型在特定领域的可控性与保真度具有积极意义。
当前挑战
该数据集致力于解决动漫角色图像生成中角色属性与视觉特征一致性保持的挑战,尤其在处理复杂发型、瞳色、饰品等细节时,模型容易产生特征混淆或丢失。构建过程中的挑战主要体现在数据收集与处理层面:首先,网络来源图像的质量与标注标准不一,需通过自动化系统进行去重、分辨率标准化及核心标签修剪以确保数据纯净度;其次,为适应不同训练需求,需生成多种预处理版本(如尺寸裁剪、分阶段裁剪),这涉及复杂的图像处理流水线与质量控制。此外,数据集中包含部分成人内容,对数据的合规使用与伦理审查提出了额外要求。
常用场景
经典使用场景
在动漫风格图像生成领域,该数据集聚焦于特定角色“宫子”的视觉特征,为文本到图像生成模型提供了高质量的标注训练素材。其经典使用场景在于支持生成对抗网络或扩散模型进行风格化角色图像的合成与编辑,研究者可依据精细的语义标签控制生成图像的属性,如发色、瞳色、服饰细节等,实现角色形象的高度可控生成。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于标签条件的动漫图像生成模型优化、角色特征迁移学习以及跨域风格适配研究。例如,利用其精细标注推动的Tag2Img框架、针对二次元角色的LoRA微调方法,以及结合聚类分析的角色服饰生成研究,均在社区内产生了广泛影响,持续丰富着动漫图像生成的技术生态。
数据集最近研究
最新研究方向
在动漫风格图像生成领域,CyberHarem/miyako_bluearchive数据集作为特定角色的高质量标注图像集合,正推动着个性化角色生成与精细化风格控制的前沿探索。该数据集通过详尽的标签体系与多尺度裁剪版本,为基于深度学习的文本到图像模型提供了精准的训练素材,尤其在角色一致性保持与多姿态、多服饰条件下的细节还原方面展现出研究价值。当前,结合生成对抗网络与扩散模型的技术路径,研究者正利用此类数据集探索角色特征解耦与跨域风格迁移,以应对动漫内容创作中对角色形象高度定制化的需求。同时,数据集中包含的多样化场景与服饰标签,也为多模态理解中语义对齐与细粒度属性编辑提供了实验基础,相关进展正逐步影响动漫游戏产业的内容自动化生产流程。
以上内容由遇见数据集搜集并总结生成



