five

CyberHarem/kisaragi_azurlane

收藏
Hugging Face2024-01-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/kisaragi_azurlane
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是关于如月(Kisaragi)这一角色的图像数据集,包含433张图像及其标签。核心标签包括`animal_ears, long_hair, pink_hair`等,图像来源于多个网站(如danbooru、pixiv、zerochan等),并由DeepGHS团队的自动爬取系统收集。数据集提供了多个版本的下载链接,包括不同分辨率的图像和裁剪后的版本。此外,还提供了如何使用waifuc工具加载原始数据集的代码示例,并展示了标签聚类的结果。

This is an image dataset centered on the character Kisaragi, containing 433 images and their corresponding tags. Core tags include `animal_ears`, `long_hair`, `pink_hair`, and others. The images were collected from multiple platforms such as Danbooru, Pixiv, Zerochan and other websites via an automated crawling system developed by the DeepGHS team. Multiple download links are provided for this dataset, including image versions with different resolutions and cropped variants. Additionally, code examples for loading the original dataset using the waifuc tool are offered, alongside the results of tag clustering.
提供机构:
CyberHarem
原始信息汇总

数据集概述:kisaragi/如月/如月 (Azur Lane)

数据集基本信息

  • 名称:kisaragi/如月/如月 (Azur Lane)
  • 包含内容:433张图像及其标签
  • 核心标签:动物耳朵、长发、粉红色头发、猫耳朵、丝带、猫尾巴、尾巴、帽子、蝴蝶结、粉红色眼睛、动物耳朵绒毛、尾巴装饰、校帽、猫女孩、刘海、眼睛间的头发、黄色头饰、一侧向上、非常长的头发、紫色眼睛、耳朵穿过头饰、头发丝带、红色丝带
  • 许可:MIT
  • 任务类别:文本到图像
  • 标签:艺术、不适合所有观众
  • 大小类别:n<1K

数据集下载

包列表

名称 图像数量 大小 下载链接 类型 描述
raw 433 447.48 MiB 下载 Waifuc-Raw 原始数据,包含元信息(最小边对齐到1400像素,如果更大)。
800 433 279.10 MiB 下载 IMG+TXT 数据集,短边不超过800像素。
stage3-p480-800 1032 615.24 MiB 下载 IMG+TXT 三阶段裁剪数据集,区域不小于480x480像素。
1200 433 404.68 MiB 下载 IMG+TXT 数据集,短边不超过1200像素。
stage3-p480-1200 1032 834.41 MiB 下载 IMG+TXT 三阶段裁剪数据集,区域不小于480x480像素。

数据集加载

使用Waifuc加载原始数据集

python import os import zipfile

from huggingface_hub import hf_hub_download from waifuc.source import LocalSource

下载原始存档文件

zip_file = hf_hub_download( repo_id=CyberHarem/kisaragi_azurlane, repo_type=dataset, filename=dataset-raw.zip, )

提取文件到你的目录

dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)

使用waifuc加载数据集

source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])

数据集标签集群

原始文本版本

# 样本数 图像1 图像2 图像3 图像4 图像5 标签
0 9 1girl, blue_shirt, blush, kindergarten_uniform, looking_at_viewer, solo, long_sleeves, yellow_bowtie, parted_lips, simple_background, upper_body, :o, white_background, white_sailor_collar
1 7 1girl, jingle_bell, kindergarten_uniform, simple_background, solo, white_background, blue_shirt, tail_ribbon, white_thighhighs, yellow_skirt, looking_at_viewer, chibi
2 6 1girl, blue_shirt, blush, kindergarten_uniform, simple_background, solo, yellow_skirt, looking_at_viewer, white_background, own_hands_together, pleated_skirt
3 6 1girl, blue_shirt, blush, full_body, jingle_bell, kindergarten_uniform, long_sleeves, looking_at_viewer, parted_lips, pleated_skirt, red_bow, solo, tail_bell, tail_bow, white_sailor_collar, yellow_skirt, bowtie, chibi, red_eyes, twitter_username, white_thighhighs, yellow_bow, :o, own_hands_together, black_footwear, blue_background, standing_on_one_leg
4 20 1girl, black_headwear, black_skirt, hair_bow, retrofit_(azur_lane), short_sleeves, solo, suspender_skirt, white_shirt, beret, black_bow, blush, looking_at_viewer, two_side_up, white_pantyhose, collared_shirt, jingle_bell, pleated_skirt, dress_shirt, tail_bell, tail_bow, neck_ribbon, pink_bow, pink_ribbon, striped_bow, tail_ribbon, parted_lips, black_footwear, full_body, white_background, anchor, open_mouth, shoes
5 8 1girl, black_headwear, black_skirt, jingle_bell, short_sleeves, solo, suspender_skirt, tail_ribbon, white_shirt, two_side_up, white_pantyhose, simple_background, blush, hair_bow, retrofit_(azur_lane), white_background, school_uniform, legs, looking_at_viewer
6 8 1boy, 1girl, blush, hetero, loli, open_mouth, flat_chest, nipples, penis, spread_legs, navel, sex, solo_focus, tears, vaginal, nude, thighhighs, bar_censor, blue_shirt, heart-shaped_pupils, kindergarten_uniform, missionary, moaning, mosaic_censoring, on_back, bell, cum_in_pussy, torso_grab
7 24 1girl, blush, hair_bow, jingle_bell, obi, solo, wide_sleeves, hair_flower, looking_at_viewer, white_pantyhose, pink_kimono, red_bow, long_sleeves, floral_print, short_kimono, frills, fur_collar, pink_skirt, print_kimono, parted_lips, dog, white_background, animal_on_head, pink_flower
搜集汇总
数据集介绍
main_image_url
构建方式
在动漫角色数据集构建领域,针对碧蓝航线中的角色“如月”,该数据集通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个知名图像托管站点收集了433张图像及其对应标签。爬取工作由DeepGHS团队开发的自动化系统驱动,确保了数据来源的广泛性与多样性。数据集对核心标签进行了精炼处理,保留了如动物耳、长发、粉发、猫耳等关键描述性标签,以提升后续模型训练的针对性与效率。数据以多种分辨率版本提供,包括原始高清版、短边不超过800或1200像素的缩放版,以及经过三阶段裁剪、面积不低于480x480像素的增强版,满足不同训练需求。
特点
该数据集的核心特点在于其精细化的多版本设计与结构化的标签体系。除原始图像外,提供了短边对齐至800像素和1200像素的标准化版本,便于快速加载与处理。尤为突出的是三阶段裁剪版本,通过智能裁剪将图像数量扩展至1032张,显著增加了训练样本的丰富度。数据集附带了详尽的标签聚类结果,将图像按视觉相似性与标签组合划分为多个簇,例如幼儿园制服、圣诞铃铛、和服等主题簇,为风格迁移、局部特征学习及服装识别等任务提供了天然的数据分组。这些聚类结果以文本和表格两种形式呈现,增强了数据的可解释性与可挖掘性。
使用方法
该数据集的使用方式灵活多样,支持通过Waifuc库直接加载原始压缩包,用户可借助Hugging Face Hub下载dataset-raw.zip文件,解压后通过LocalSource接口轻松读取图像及其元数据。对于需要标准化输入的深度学习任务,可直接使用800或1200版本的IMG+TXT格式包,图像与标签文件一一对应,便于与主流框架如PyTorch或TensorFlow集成。标签聚类文件则为研究者提供了先验知识,可直接利用聚类索引进行分组训练或条件生成。数据集遵循MIT许可证,允许自由使用与修改,适用于文本到图像生成、角色识别及细粒度图像分类等研究方向。
背景与挑战
背景概述
在生成式人工智能与二次元文化交汇的浪潮中,高质量、精细化的角色数据集成为驱动文本到图像生成模型发展的关键基石。CyberHarem/kisaragi_azurlane数据集由DeepGHS团队于近年创建,专注于收录手游《碧蓝航线》中人气角色“如月”的视觉素材。该数据集的核心研究问题在于如何系统性地构建一个带有丰富语义标签的、面向特定虚拟角色的图像集合,以支持扩散模型等生成式算法对该角色外观特征(如猫耳、粉发、丝带等)的精准学习与再现。通过整合来自Danbooru、Pixiv等多个平台的433张精选图像,该数据集为二次元角色定制化生成任务提供了标准化的训练资源,在爱好者社区与学术研究中均展现出独特的影响力。
当前挑战
数据集当前面临的核心挑战首先体现在领域问题的复杂性上:文本到图像生成任务要求模型能够从高度抽象的标签(如“猫耳”、“丝带”)中准确还原角色在特定姿态、服饰与场景下的视觉细节,而如月这一角色存在多种换装形态(如幼儿园制服、和服、改造后装束),增加了特征融合与风格迁移的难度。其次,在构建过程中,数据采集与清洗面临严峻考验:图像来源多样导致元数据格式不一,需依赖自动化爬虫系统进行异构整合;同时,原始数据中夹杂着不适宜公开的成人向内容(如README中cluster 6所示),在构建规范数据集时必须通过严格的过滤与标签隐私处理来确保可用性与合规性,这对数据管道的鲁棒性提出了高要求。
常用场景
经典使用场景
在文本到图像生成领域,CyberHarem/kisaragi_azurlane数据集为角色定制化生成提供了高质量的素材。该数据集收录了433张碧蓝航线角色“如月”的高清图像及其详尽标签,涵盖动物耳、长发、猫尾等核心特征。研究者可基于此数据集训练扩散模型或生成对抗网络,实现特定动漫角色的精准复现与风格迁移,从而推动角色一致性生成技术的发展。
衍生相关工作
基于该数据集,衍生出多项经典工作,包括基于Waifuc框架的自动爬取与标签清洗流程,以及多阶段裁剪策略(stage3-p480)以提升训练效率。聚类分析结果(如制服与和服分组)为细粒度特征解耦研究提供了范例,推动了动漫数据集在图像修复、超分辨率及文本引导编辑等下游任务中的标准化应用。
数据集最近研究
最新研究方向
在人工智能生成内容(AIGC)领域,特别是文本到图像(text-to-image)任务中,高质量、精细标注的角色数据集正成为推动模型个性化与风格化生成能力的关键资源。CyberHarem/kisaragi_azurlane数据集聚焦于《碧蓝航线》中的角色“如月”,收录了433张经过多源爬取与系统化标注的图像,其标签体系涵盖了外貌特征、服饰细节及姿态描述,为二次元角色生成模型的训练提供了结构化数据支撑。当前前沿研究方向包括基于扩散模型的角色一致性生成、少样本学习下的角色定制化,以及多模态标签引导的精细控制生成。该数据集通过提供不同分辨率与裁剪策略的版本,支持从原始图像到多阶段裁剪的灵活使用,契合了行业对数据多样性与预处理效率的双重需求,对于推动动漫风格图像生成、角色IP数字化以及个性化内容创作具有重要的基础性意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作