CyberHarem/kawashima_mizuki_idolmastercinderellagirls
收藏Hugging Face2024-01-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/kawashima_mizuki_idolmastercinderellagirls
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-to-image
tags:
- art
- not-for-all-audiences
size_categories:
- n<1K
---
# Dataset of kawashima_mizuki/川島瑞樹 (THE iDOLM@STER: Cinderella Girls)
This is the dataset of kawashima_mizuki/川島瑞樹 (THE iDOLM@STER: Cinderella Girls), containing 169 images and their tags.
The core tags of this character are `brown_hair, brown_eyes, long_hair, breasts, ponytail`, which are pruned in this dataset.
Images are crawled from many sites (e.g. danbooru, pixiv, zerochan ...), the auto-crawling system is powered by [DeepGHS Team](https://github.com/deepghs)([huggingface organization](https://huggingface.co/deepghs)).
## List of Packages
| Name | Images | Size | Download | Type | Description |
|:-----------------|---------:|:-----------|:--------------------------------------------------------------------------------------------------------------------------------------------|:-----------|:---------------------------------------------------------------------|
| raw | 169 | 133.93 MiB | [Download](https://huggingface.co/datasets/CyberHarem/kawashima_mizuki_idolmastercinderellagirls/resolve/main/dataset-raw.zip) | Waifuc-Raw | Raw data with meta information (min edge aligned to 1400 if larger). |
| 800 | 169 | 102.57 MiB | [Download](https://huggingface.co/datasets/CyberHarem/kawashima_mizuki_idolmastercinderellagirls/resolve/main/dataset-800.zip) | IMG+TXT | dataset with the shorter side not exceeding 800 pixels. |
| stage3-p480-800 | 315 | 182.78 MiB | [Download](https://huggingface.co/datasets/CyberHarem/kawashima_mizuki_idolmastercinderellagirls/resolve/main/dataset-stage3-p480-800.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
| 1200 | 169 | 127.03 MiB | [Download](https://huggingface.co/datasets/CyberHarem/kawashima_mizuki_idolmastercinderellagirls/resolve/main/dataset-1200.zip) | IMG+TXT | dataset with the shorter side not exceeding 1200 pixels. |
| stage3-p480-1200 | 315 | 223.29 MiB | [Download](https://huggingface.co/datasets/CyberHarem/kawashima_mizuki_idolmastercinderellagirls/resolve/main/dataset-stage3-p480-1200.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
### Load Raw Dataset with Waifuc
We provide raw dataset (including tagged images) for [waifuc](https://deepghs.github.io/waifuc/main/tutorials/installation/index.html) loading. If you need this, just run the following code
```python
import os
import zipfile
from huggingface_hub import hf_hub_download
from waifuc.source import LocalSource
# download raw archive file
zip_file = hf_hub_download(
repo_id='CyberHarem/kawashima_mizuki_idolmastercinderellagirls',
repo_type='dataset',
filename='dataset-raw.zip',
)
# extract files to your directory
dataset_dir = 'dataset_dir'
os.makedirs(dataset_dir, exist_ok=True)
with zipfile.ZipFile(zip_file, 'r') as zf:
zf.extractall(dataset_dir)
# load the dataset with waifuc
source = LocalSource(dataset_dir)
for item in source:
print(item.image, item.meta['filename'], item.meta['tags'])
```
## List of Clusters
List of tag clustering result, maybe some outfits can be mined here.
### Raw Text Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | Tags |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:------------------------------------------------------------------------------------------------------|
| 0 | 8 |  |  |  |  |  | 1girl, open_mouth, solo, blush, necklace, smile, large_breasts, looking_at_viewer, bracelet, cleavage |
### Table Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | 1girl | open_mouth | solo | blush | necklace | smile | large_breasts | looking_at_viewer | bracelet | cleavage |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------|:-------------|:-------|:--------|:-----------|:--------|:----------------|:--------------------|:-----------|:-----------|
| 0 | 8 |  |  |  |  |  | X | X | X | X | X | X | X | X | X | X |
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集信息
- 名称: kawashima_mizuki/川島瑞樹 (THE iDOLM@STER: Cinderella Girls)
- 包含内容: 169张图片及其标签
- 核心标签: brown_hair, brown_eyes, long_hair, breasts, ponytail
- 标签分类: art, not-for-all-audiences
- 数据集大小: n<1K
数据集包列表
| 名称 | 图片数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 169 | 133.93 MiB | Waifuc-Raw | 包含元信息的原始数据(最小边对齐到1400像素,如果更大) |
| 800 | 169 | 102.57 MiB | IMG+TXT | 短边不超过800像素的数据集 |
| stage3-p480-800 | 315 | 182.78 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
| 1200 | 169 | 127.03 MiB | IMG+TXT | 短边不超过1200像素的数据集 |
| stage3-p480-1200 | 315 | 223.29 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
数据集加载
使用Waifuc加载原始数据集
python import os import zipfile
from huggingface_hub import hf_hub_download from waifuc.source import LocalSource
下载原始归档文件
zip_file = hf_hub_download( repo_id=CyberHarem/kawashima_mizuki_idolmastercinderellagirls, repo_type=dataset, filename=dataset-raw.zip, )
解压文件到指定目录
dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)
使用waifuc加载数据集
source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])
标签聚类结果
原始文本版本
| # | 样本数量 | 图片1 | 图片2 | 图片3 | 图片4 | 图片5 | 标签 |
|---|---|---|---|---|---|---|---|
| 0 | 8 | ![]() |
![]() |
![]() |
![]() |
![]() |
1girl, open_mouth, solo, blush, necklace, smile, large_breasts, looking_at_viewer, bracelet, cleavage |
表格版本
| # | 样本数量 | 图片1 | 图片2 | 图片3 | 图片4 | 图片5 | 1girl | open_mouth | solo | blush | necklace | smile | large_breasts | looking_at_viewer | bracelet | cleavage |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 8 | ![]() |
![]() |
![]() |
![]() |
![]() |
X | X | X | X | X | X | X | X | X | X |
搜集汇总
数据集介绍

构建方式
该数据集聚焦于日本偶像大师系列中角色川島瑞樹的视觉素材,由DeepGHS团队开发的全自动爬取系统驱动,从Danbooru、Pixiv、Zerochan等多个图像平台采集原始图像,共计169张。系统自动对齐图像最小边长至1400像素以保留元信息,并对核心标签如棕色长发、棕眼、长发、胸部、马尾辫进行剪枝处理。数据集进一步提供多种分辨率版本,包括短边不超过800像素和1200像素的标准化图像,以及基于三阶段裁剪策略生成的不小于480×480像素的扩充版本,总计315张图像,满足不同训练需求。
特点
数据集的核心特色在于其多版本分层设计,兼顾了原始元数据保留与模型训练效率。raw包提供完整元信息,适合精细化标注研究;800和1200版本通过尺寸归一化降低计算开销,便于快速迭代;stage3系列通过三阶段裁剪策略,在保持图像质量和内容完整性的同时扩充样本量至315张,有效提升数据多样性。此外,数据集提供了标签聚类结果,以文本和表格两种形式呈现,揭示了如项链、微笑、露齿等高频视觉模式,为风格迁移和角色特征提取提供了结构化参考。
使用方法
数据集支持两种主流使用路径。对于需要原始元数据的场景,可通过Hugging Face Hub下载dataset-raw.zip压缩包,解压后利用Waifuc库的LocalSource加载,直接访问图像及其关联的标签和文件名信息。对于标准训练流程,推荐直接下载IMG+TXT格式的800或1200版本,图像与标签文件一一对应,便于与扩散模型或分类器集成。进阶用户可利用stage3系列进行数据增强,或基于提供的聚类标签表快速筛选特定姿态或服饰组合的子集,以适配特定生成任务。
背景与挑战
背景概述
在二次元角色图像生成领域,高质量、标注精确的数据集是驱动文本到图像模型(如Stable Diffusion)性能提升的关键基石。由DeepGHS团队于近年来创建的CyberHarem/kawashima_mizuki_idolmastercinderellagirls数据集,聚焦于《偶像大师灰姑娘女孩》中的人气角色川島瑞樹,旨在为角色定制化生成任务提供标准化资源。该数据集收录了从Danbooru、Pixiv等平台自动爬取的169张图像,并附有精细化标签,核心特征如棕色长发、棕色眼眸、马尾辫等被明确标注。其影响力体现在为角色一致性生成、多尺度训练(提供800、1200像素等多种分辨率版本)以及基于聚类的服饰分析(如项链、手镯等配饰的标签聚类)提供了可复现的基准,推动了动漫角色数据集构建的自动化与规范化进程。
当前挑战
当前数据集面临的核心挑战源于领域问题与构建过程的双重复杂性。在领域层面,二次元角色图像生成需应对风格多样性(同一角色在不同画师笔下差异显著)与标签歧义性(如“large_breasts”等主观描述)带来的模型泛化难题。构建过程中,自动爬取机制虽提高了效率,却引入了数据噪声:部分图像分辨率不足或包含无关背景元素,需通过多阶段裁剪(如stage3-p480-800)进行过滤;标签系统依赖社区标注,存在缺失或重复(如“1girl”与“solo”语义重叠)的风险。此外,小规模样本量(仅169张原始图像)限制了模型对罕见姿态或服饰组合的泛化能力,而版权合规性(跨平台爬取的法律边界)亦是长期隐忧。
常用场景
经典使用场景
该数据集专注于二次元角色川島瑞樹的肖像与全身图像,包含169张经过精细标注的图片,涵盖多种分辨率与裁剪版本。在文本到图像生成领域,它常被用作微调扩散模型或训练角色专属LoRA(Low-Rank Adaptation)的基准数据,尤其适用于学习特定角色的视觉特征如棕色长发、马尾辫与成熟气质。研究者通过将数据集与Stable Diffusion等基础模型结合,能够高效生成风格一致且角色辨识度高的新图像,从而实现从概念到视觉的精准映射。
衍生相关工作
该数据集衍生了一系列影响深远的工作,包括基于Waifuc框架的自动化图像采集与标注流程,以及针对动漫角色的多阶段裁剪与分辨率适配策略。后续研究如CyberHarem团队发布的角色聚类分析,通过标签共现模式挖掘出不同服装与动作组合,为角色变装生成提供了先验知识。此外,该数据集常与LoRA微调技术结合,形成了从数据构建到模型部署的完整管线,被广泛引用于角色一致性生成的基准测试中,推动了二次元生成领域的标准化进程。
数据集最近研究
最新研究方向
在二次元角色图像生成领域,针对特定动漫角色的精细化数据集构建正成为推动文本到图像模型发展的关键环节。该数据集聚焦于《偶像大师灰姑娘女孩》中的川岛瑞树,通过从Danbooru、Pixiv等多源平台自动爬取169张高质量图像并配以标签,为角色定制化生成提供了标准化素材。当前前沿研究方向集中于利用此类角色专属数据集微调扩散模型,以实现对角色核心特征(如棕色长发、马尾辫等)的精准把控与风格迁移,同时探索多尺度裁剪(如stage3-p480策略)对生成质量与训练效率的影响。这一工作契合了虚拟偶像经济与AIGC技术深度融合的热潮,不仅降低了角色IP衍生内容的生产门槛,也为动漫文化数字化保护与创新提供了数据基础设施,其意义在于推动生成式AI从通用场景向垂直角色生态的精细化演进。
以上内容由遇见数据集搜集并总结生成








