CyberHarem/lutzow_azurlane
收藏Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/lutzow_azurlane
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为lutzow/リュッツォウ/吕佐夫 (Azur Lane)的数据集,包含68张图片及其标签。数据集的核心标签包括breasts, long_hair, large_breasts, hat, grey_hair, black_headwear, bangs,这些标签在数据集中被修剪。图片从多个网站(如danbooru, pixiv, zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集提供了多种格式的下载选项,包括原始数据、不同分辨率的图片以及经过裁剪的图片。此外,还提供了如何使用waifuc工具加载原始数据集的代码示例。
这是一个名为lutzow/リュッツォウ/吕佐夫 (Azur Lane)的数据集,包含68张图片及其标签。数据集的核心标签包括breasts, long_hair, large_breasts, hat, grey_hair, black_headwear, bangs,这些标签在数据集中被修剪。图片从多个网站(如danbooru, pixiv, zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集提供了多种格式的下载选项,包括原始数据、不同分辨率的图片以及经过裁剪的图片。此外,还提供了如何使用waifuc工具加载原始数据集的代码示例。
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集信息
- 名称: Dataset of lutzow/リュッツォウ/吕佐夫 (Azur Lane)
- 包含内容: 68张图片及其标签
- 核心标签:
breasts, long_hair, large_breasts, hat, grey_hair, black_headwear, bangs
数据集包列表
| 名称 | 图片数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 68 | 125.23 MiB | Waifuc-Raw | 包含元信息的原始数据(最小边对齐到1400像素,如果更大) |
| 800 | 68 | 60.93 MiB | IMG+TXT | 短边不超过800像素的数据集 |
| stage3-p480-800 | 167 | 133.02 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
| 1200 | 68 | 105.45 MiB | IMG+TXT | 短边不超过1200像素的数据集 |
| stage3-p480-1200 | 167 | 200.02 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
标签聚类结果
原始文本版本
| # | 样本数量 | 图片示例 | 标签 |
|---|---|---|---|
| 0 | 6 | ![]() |
1girl, black_skirt, drill_locks, looking_at_viewer, solo, white_shirt, red_nails, braid, detached_sleeves, nail_polish, non-humanoid_robot, smile, thighhighs, belt, drill_hair, feet_out_of_frame, grey_eyes |
| 1 | 10 | ![]() |
1girl, black_skirt, detached_sleeves, looking_at_viewer, solo, long_sleeves, white_shirt, bare_shoulders, black_footwear, mini_hat, open_mouth, black_thighhighs, thigh_boots, braid, one_eye_closed, simple_background, sitting, grey_eyes, high-waist_skirt, medium_hair, stuffed_toy, white_background, ;o, holding, nail_polish, red_nails, yawning |
| 2 | 21 | ![]() |
looking_at_viewer, red_eyes, 1girl, black_dress, cleavage, official_alternate_costume, solo, thighhighs, white_hair, bare_shoulders, blush, tongue_out, drill_locks, hair_ornament, smile |
表格版本
| # | 样本数量 | 图片示例 | 1girl | black_skirt | drill_locks | looking_at_viewer | solo | white_shirt | red_nails | braid | detached_sleeves | nail_polish | non-humanoid_robot | smile | thighhighs | belt | drill_hair | feet_out_of_frame | grey_eyes | long_sleeves | bare_shoulders | black_footwear | mini_hat | open_mouth | black_thighhighs | thigh_boots | one_eye_closed | simple_background | sitting | high-waist_skirt | medium_hair | stuffed_toy | white_background | ;o | holding | yawning | red_eyes | black_dress | cleavage | official_alternate_costume | white_hair | blush | tongue_out | hair_ornament |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 6 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X |
搜集汇总
数据集介绍

构建方式
在二次元角色数据集构建领域,针对《碧蓝航线》中吕佐夫这一角色,CyberHarem团队构建了该数据集。其构建方式依托于DeepGHS团队开发的自动化爬取系统,从Danbooru、Pixiv、Zerochan等多个知名图站采集图像,最终收录了68张高质量图片及其对应标签。原始数据经过筛选与标注,并针对角色核心标签如breasts、long_hair、large_breasts、hat、grey_hair、black_headwear、bangs进行了剪枝处理,以提升数据集的针对性与纯净度。
特点
该数据集在规模上虽仅包含68张图像,但提供了多种预处理版本以满足不同训练需求。除了包含元信息的原始raw版本外,还提供了短边不超过800像素和1200像素的标准化版本,以及经过三阶段裁剪、面积不小于480x480像素的增强版本,后者通过裁剪扩增将图像数量提升至167张。此外,数据集附带了标签聚类结果,可辅助挖掘角色不同服饰或姿态的潜在模式,体现了精细化的数据组织思路。
使用方法
数据集的使用方式灵活多样。用户可直接下载压缩包获取图像与标签文件,用于文本到图像生成模型的训练。对于希望保留完整元信息的研究者,推荐使用waifuc库加载raw版本,通过调用huggingface_hub下载原始压缩包,解压后利用LocalSource接口即可逐项读取图像、文件名及标签,便于进行定制化数据流水线开发。不同分辨率版本的选择可根据模型输入尺寸需求灵活决定。
背景与挑战
背景概述
在二次元文化蓬勃发展的数字时代,基于特定动漫角色的图像生成与风格迁移技术日益成为计算机视觉与多模态学习领域的研究热点。由DeepGHS团队于近年创建的CyberHarem/lutzow_azurlane数据集,聚焦于《碧蓝航线》中吕佐夫(リュッツォウ)这一角色,通过从Danbooru、Pixiv、Zerochan等多个知名图站自动爬取并精心筛选,最终收录了68张高质量图像及其对应的标签元数据。该数据集的核心研究问题在于为文本到图像生成(text-to-image)任务提供精准、细粒度的角色特征描述,其标签系统涵盖了发型、服饰、表情等关键视觉要素。作为开源社区中规模虽小但高度专业化的资源,该数据集不仅推动了动漫角色个性化生成模型的训练,也为多标签分类、图像聚类分析等下游任务提供了宝贵的基准数据,在二次元AI创作领域展现出独特的影响力。
当前挑战
该数据集所面临的挑战首先体现在领域问题层面:文本到图像生成任务要求模型能够从有限样本中精准捕捉并复现角色的核心特征,如吕佐夫的灰色长发、大胸、帽饰等关键标签,然而仅68张图像的数据规模极易导致模型过拟合或泛化能力不足,难以在保持角色身份一致性的同时生成多样化的姿态与场景。其次,在构建过程中,自动爬取系统面临图像版权与隐私合规的伦理挑战,需严格筛选来源以避免侵权风险;同时,多源图像在分辨率、画风、光照条件上存在显著差异,需通过多级预处理流程(如边缘对齐至1400像素、三级裁剪策略)进行标准化,但这一过程可能引入信息丢失或标注噪声。此外,标签聚类分析揭示了角色在不同装扮下的视觉多样性,如何从有限样本中有效挖掘并利用这些潜在子类,以提升生成模型的细粒度控制能力,仍是亟待攻克的技术难点。
常用场景
经典使用场景
在动漫角色生成与风格迁移领域,CyberHarem/lutzow_azurlane数据集为文本到图像(text-to-image)任务提供了高度结构化的训练素材。该数据集聚焦于《碧蓝航线》中的角色“吕佐夫”,收录了68张经过精细标注的图像及其对应的标签信息,涵盖服装、发型、配饰等核心视觉特征。研究者常利用该数据集训练扩散模型或生成对抗网络,以学习特定角色的视觉语义映射关系,从而实现对角色外貌的精准复现与风格化创作。
解决学术问题
该数据集有效解决了动漫角色生成中面临的数据稀疏性与标注不一致问题。通过提供多尺度裁剪版本(如480x480至1200像素)及原始元数据,它支持了模型在有限样本下的鲁棒性训练。学术研究中,该数据集常被用于探索少样本学习(few-shot learning)与条件图像生成技术的结合,推动了针对特定角色生成任务中细节保真度与风格泛化能力的提升。
衍生相关工作
基于该数据集衍生的工作包括标签聚类分析、多阶段图像裁剪策略以及自动化数据采集管道的优化。例如,研究者利用其提供的聚类结果(如按服装或姿势分组)开发了角色属性解耦模型,实现了风格与内容的分离控制。同时,该数据集催生了针对动漫图像的高效标注工具与数据增强方法,相关成果被应用于更大规模的动漫角色数据集构建中,推动了虚拟角色生成技术的产业化落地。
以上内容由遇见数据集搜集并总结生成






