CyberHarem/murakami_tomoe_idolmastercinderellagirls
收藏Hugging Face2024-01-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/murakami_tomoe_idolmastercinderellagirls
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-to-image
tags:
- art
- not-for-all-audiences
size_categories:
- n<1K
---
# Dataset of murakami_tomoe/村上巴 (THE iDOLM@STER: Cinderella Girls)
This is the dataset of murakami_tomoe/村上巴 (THE iDOLM@STER: Cinderella Girls), containing 155 images and their tags.
The core tags of this character are `red_hair, short_hair, brown_eyes`, which are pruned in this dataset.
Images are crawled from many sites (e.g. danbooru, pixiv, zerochan ...), the auto-crawling system is powered by [DeepGHS Team](https://github.com/deepghs)([huggingface organization](https://huggingface.co/deepghs)).
## List of Packages
| Name | Images | Size | Download | Type | Description |
|:-----------------|---------:|:-----------|:------------------------------------------------------------------------------------------------------------------------------------------|:-----------|:---------------------------------------------------------------------|
| raw | 155 | 142.64 MiB | [Download](https://huggingface.co/datasets/CyberHarem/murakami_tomoe_idolmastercinderellagirls/resolve/main/dataset-raw.zip) | Waifuc-Raw | Raw data with meta information (min edge aligned to 1400 if larger). |
| 800 | 155 | 100.04 MiB | [Download](https://huggingface.co/datasets/CyberHarem/murakami_tomoe_idolmastercinderellagirls/resolve/main/dataset-800.zip) | IMG+TXT | dataset with the shorter side not exceeding 800 pixels. |
| stage3-p480-800 | 330 | 194.17 MiB | [Download](https://huggingface.co/datasets/CyberHarem/murakami_tomoe_idolmastercinderellagirls/resolve/main/dataset-stage3-p480-800.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
| 1200 | 155 | 134.29 MiB | [Download](https://huggingface.co/datasets/CyberHarem/murakami_tomoe_idolmastercinderellagirls/resolve/main/dataset-1200.zip) | IMG+TXT | dataset with the shorter side not exceeding 1200 pixels. |
| stage3-p480-1200 | 330 | 249.11 MiB | [Download](https://huggingface.co/datasets/CyberHarem/murakami_tomoe_idolmastercinderellagirls/resolve/main/dataset-stage3-p480-1200.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
### Load Raw Dataset with Waifuc
We provide raw dataset (including tagged images) for [waifuc](https://deepghs.github.io/waifuc/main/tutorials/installation/index.html) loading. If you need this, just run the following code
```python
import os
import zipfile
from huggingface_hub import hf_hub_download
from waifuc.source import LocalSource
# download raw archive file
zip_file = hf_hub_download(
repo_id='CyberHarem/murakami_tomoe_idolmastercinderellagirls',
repo_type='dataset',
filename='dataset-raw.zip',
)
# extract files to your directory
dataset_dir = 'dataset_dir'
os.makedirs(dataset_dir, exist_ok=True)
with zipfile.ZipFile(zip_file, 'r') as zf:
zf.extractall(dataset_dir)
# load the dataset with waifuc
source = LocalSource(dataset_dir)
for item in source:
print(item.image, item.meta['filename'], item.meta['tags'])
```
## List of Clusters
List of tag clustering result, maybe some outfits can be mined here.
### Raw Text Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | Tags |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 0 | 26 |  |  |  |  |  | looking_at_viewer, 1girl, solo, letterman_jacket, blush, simple_background, shirt, open_jacket, smile, white_background, upper_body |
| 1 | 13 |  |  |  |  |  | 1girl, hair_flower, floral_print, obi, blush, looking_at_viewer, solo, wide_sleeves, bangs, holding_microphone, open_mouth, long_sleeves, pink_kimono, smile |
| 2 | 5 |  |  |  |  |  | 1girl, blush, navel, small_breasts, solo, looking_at_viewer, sweat, nude, twitter_username, anus, dated, nipples, on_back, pussy, sitting, spread_legs |
### Table Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | looking_at_viewer | 1girl | solo | letterman_jacket | blush | simple_background | shirt | open_jacket | smile | white_background | upper_body | hair_flower | floral_print | obi | wide_sleeves | bangs | holding_microphone | open_mouth | long_sleeves | pink_kimono | navel | small_breasts | sweat | nude | twitter_username | anus | dated | nipples | on_back | pussy | sitting | spread_legs |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------|:--------|:-------|:-------------------|:--------|:--------------------|:--------|:--------------|:--------|:-------------------|:-------------|:--------------|:---------------|:------|:---------------|:--------|:---------------------|:-------------|:---------------|:--------------|:--------|:----------------|:--------|:-------|:-------------------|:-------|:--------|:----------|:----------|:--------|:----------|:--------------|
| 0 | 26 |  |  |  |  |  | X | X | X | X | X | X | X | X | X | X | X | | | | | | | | | | | | | | | | | | | | | |
| 1 | 13 |  |  |  |  |  | X | X | X | | X | | | | X | | | X | X | X | X | X | X | X | X | X | | | | | | | | | | | | |
| 2 | 5 |  |  |  |  |  | X | X | X | | X | | | | | | | | | | | | | | | | X | X | X | X | X | X | X | X | X | X | X | X |
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集信息
- 名称: Dataset of murakami_tomoe/村上巴 (THE iDOLM@STER: Cinderella Girls)
- 内容: 包含155张图片及其标签
- 核心标签:
red_hair, short_hair, brown_eyes - 来源: 从多个网站爬取,如danbooru, pixiv, zerochan等
- 许可证: MIT
- 任务类别: text-to-image
- 标签: art, not-for-all-audiences
- 大小类别: n<1K
数据集包列表
| 名称 | 图片数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 155 | 142.64 MiB | Waifuc-Raw | 原始数据,包含元信息(最小边对齐到1400像素,如果更大) |
| 800 | 155 | 100.04 MiB | IMG+TXT | 短边不超过800像素的数据集 |
| stage3-p480-800 | 330 | 194.17 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
| 1200 | 155 | 134.29 MiB | IMG+TXT | 短边不超过1200像素的数据集 |
| stage3-p480-1200 | 330 | 249.11 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
标签聚类结果
原始文本版本
| # | 样本数量 | 图片示例1 | 图片示例2 | 图片示例3 | 图片示例4 | 图片示例5 | 标签 |
|---|---|---|---|---|---|---|---|
| 0 | 26 | ![]() |
![]() |
![]() |
![]() |
![]() |
looking_at_viewer, 1girl, solo, letterman_jacket, blush, simple_background, shirt, open_jacket, smile, white_background, upper_body |
| 1 | 13 | ![]() |
![]() |
![]() |
![]() |
![]() |
1girl, hair_flower, floral_print, obi, blush, looking_at_viewer, solo, wide_sleeves, bangs, holding_microphone, open_mouth, long_sleeves, pink_kimono, smile |
| 2 | 5 | ![]() |
![]() |
![]() |
![]() |
![]() |
1girl, blush, navel, small_breasts, solo, looking_at_viewer, sweat, nude, twitter_username, anus, dated, nipples, on_back, pussy, sitting, spread_legs |
表格版本
| # | 样本数量 | 图片示例1 | 图片示例2 | 图片示例3 | 图片示例4 | 图片示例5 | looking_at_viewer | 1girl | solo | letterman_jacket | blush | simple_background | shirt | open_jacket | smile | white_background | upper_body | hair_flower | floral_print | obi | wide_sleeves | bangs | holding_microphone | open_mouth | long_sleeves | pink_kimono | navel | small_breasts | sweat | nude | twitter_username | anus | dated | nipples | on_back | pussy | sitting | spread_legs |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 26 | ![]() |
![]() |
![]() |
![]() |
![]() |
X | X | X | X | X | X | X | X | X | X | X | |||||||||||||||||||||
| 1 | 13 | ![]() |
![]() |
![]() |
![]() |
![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | ||||||||||||||||||
| 2 | 5 | ![]() |
![]() |
![]() |
![]() |
![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X |
搜集汇总
数据集介绍

构建方式
在《偶像大师:灰姑娘女孩》这一风靡全球的角色扮演游戏背景下,村上巴这一角色因其鲜明的红发、短发与棕瞳特征而备受瞩目。该数据集专为文本到图像生成任务设计,汇聚了155张高质量图像及其对应的标签信息。图像的采集源自Danbooru、Pixiv、Zerochan等多个知名插画社区,依托DeepGHS团队开发的自动化爬取系统高效完成。数据集提供了多种分辨率版本,包括原始版(最小边对齐至1400像素)、800像素版、1200像素版以及经过三阶段裁剪的版本(如stage3-p480-800和stage3-p480-1200),以满足不同应用场景的需求。
特点
该数据集的核心特色在于其精细化的标签体系与多版本设计。基础标签如“红发”、“短发”、“棕瞳”已被精简处理,而通过聚类分析进一步挖掘出的服饰与姿态模式,如“字母夹克”、“粉色和服”乃至特定细节标签,为模型训练提供了丰富的语义信息。数据集包含原始元数据版本和IMG+TXT配对版本,后者将图像与文本标签直接关联,便于直接用于监督学习。此外,三阶段裁剪版本通过智能区域选择,确保裁剪后的图像内容完整且面积不低于480x480像素,有效提升了数据质量。
使用方法
使用该数据集时,用户可通过Hugging Face Hub直接下载压缩包,并借助Waifuc库便捷加载原始数据。具体而言,利用`hf_hub_download`函数获取`dataset-raw.zip`文件,解压后通过`LocalSource`接口即可逐项访问图像及其元数据(包括文件名与标签)。对于IMG+TXT版本,用户可直接将图像与对应文本配对,用于训练文本到图像生成模型。聚类结果以表格形式呈现,可辅助用户快速理解数据分布,并针对特定风格或服饰进行选择性采样,从而高效开展下游任务。
背景与挑战
背景概述
村上巴(Murakami Tomoe)出自万代南梦宫娱乐旗下的经典偶像养成游戏《偶像大师灰姑娘女孩》,是该系列中一位兼具元气与温柔气质的角色。该数据集由DeepGHS团队于近年创建,依托其自主研发的自动化爬取系统,从Danbooru、Pixiv、Zerochan等多个主流二次元图像平台收集了155张高质量图像,并附带详尽的人工标签。核心研究问题聚焦于为文本到图像生成模型提供精细化的角色特定训练数据,以解决动漫角色在生成任务中特征一致性不足的难题。该数据集通过多分辨率打包与三阶段裁剪策略,为研究者提供了灵活的数据适配方案,在二次元图像生成领域具有重要的基准价值。
当前挑战
该数据集所解决的领域问题在于提升文本到图像生成模型对特定动漫角色的还原度,尤其是在复杂服饰、发型及面部特征上的精确生成。构建过程中面临多重挑战:其一,数据来源分散,需从多个异构平台进行高效且准确的图像爬取与去重;其二,标签体系繁复,需对原始标签进行清洗、标准化及核心特征剪枝(如剔除红发、短发等通用标签),以避免模型过拟合;其三,图像质量参差不齐,需通过多级分辨率打包与三阶段裁剪(如480x480区域约束)来平衡细节保留与计算效率;其四,内容多样性管理,需对包含裸露等不适宜内容的样本进行聚类与标注,以满足不同研究场景的合规需求。
常用场景
经典使用场景
在动漫角色生成与个性化图像合成领域,CyberHarem/murakami_tomoe_idolmastercinderellagirls 数据集凭借其精心收集的155张高分辨率角色图像及对应的语义标签,成为了训练文本到图像模型(如Stable Diffusion)的经典素材。研究者常利用该数据集对特定二次元角色进行概念注入与微调,以提升模型对角色标志性特征(如红发、短发、棕色眼眸)的捕捉能力,进而实现精准的角色再现与风格迁移。
实际应用
实际应用中,该数据集被广泛用于虚拟偶像的快速原型设计、同人创作辅助工具的开发以及游戏角色素材的自动化生产。借助其多分辨率版本(如800px与1200px)和裁剪策略,开发者能够在保持图像质量的同时高效训练轻量级生成模型,从而降低二次元内容创作的门槛,加速数字娱乐产业中个性化角色资产的生成流程。
衍生相关工作
基于该数据集,衍生出一系列关于动漫角色风格解耦与属性编辑的研究工作。例如,利用其标签聚类结果进行的角色服装变换实验,以及结合Waifuc框架构建的自动化数据流水线,催生了多个针对二次元图像的高效检索与生成系统。此外,该数据集还作为基准,支撑了关于小样本角色适应性和多模态特征对齐的后续探索。
以上内容由遇见数据集搜集并总结生成


















