CyberHarem/luna_child_touhou
收藏Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/luna_child_touhou
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-to-image
tags:
- art
- not-for-all-audiences
size_categories:
- n<1K
---
# Dataset of luna_child/ルナチャイルド/루나차일드 (Touhou)
This is the dataset of luna_child/ルナチャイルド/루나차일드 (Touhou), containing 500 images and their tags.
The core tags of this character are `blonde_hair, drill_hair, hat, short_hair, wings, red_eyes, bow, fairy_wings, white_headwear`, which are pruned in this dataset.
Images are crawled from many sites (e.g. danbooru, pixiv, zerochan ...), the auto-crawling system is powered by [DeepGHS Team](https://github.com/deepghs)([huggingface organization](https://huggingface.co/deepghs)).
## List of Packages
| Name | Images | Size | Download | Type | Description |
|:-----------------|---------:|:-----------|:-------------------------------------------------------------------------------------------------------------------|:-----------|:---------------------------------------------------------------------|
| raw | 500 | 411.70 MiB | [Download](https://huggingface.co/datasets/CyberHarem/luna_child_touhou/resolve/main/dataset-raw.zip) | Waifuc-Raw | Raw data with meta information (min edge aligned to 1400 if larger). |
| 800 | 500 | 300.33 MiB | [Download](https://huggingface.co/datasets/CyberHarem/luna_child_touhou/resolve/main/dataset-800.zip) | IMG+TXT | dataset with the shorter side not exceeding 800 pixels. |
| stage3-p480-800 | 1021 | 583.72 MiB | [Download](https://huggingface.co/datasets/CyberHarem/luna_child_touhou/resolve/main/dataset-stage3-p480-800.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
| 1200 | 500 | 388.00 MiB | [Download](https://huggingface.co/datasets/CyberHarem/luna_child_touhou/resolve/main/dataset-1200.zip) | IMG+TXT | dataset with the shorter side not exceeding 1200 pixels. |
| stage3-p480-1200 | 1021 | 713.29 MiB | [Download](https://huggingface.co/datasets/CyberHarem/luna_child_touhou/resolve/main/dataset-stage3-p480-1200.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
### Load Raw Dataset with Waifuc
We provide raw dataset (including tagged images) for [waifuc](https://deepghs.github.io/waifuc/main/tutorials/installation/index.html) loading. If you need this, just run the following code
```python
import os
import zipfile
from huggingface_hub import hf_hub_download
from waifuc.source import LocalSource
# download raw archive file
zip_file = hf_hub_download(
repo_id='CyberHarem/luna_child_touhou',
repo_type='dataset',
filename='dataset-raw.zip',
)
# extract files to your directory
dataset_dir = 'dataset_dir'
os.makedirs(dataset_dir, exist_ok=True)
with zipfile.ZipFile(zip_file, 'r') as zf:
zf.extractall(dataset_dir)
# load the dataset with waifuc
source = LocalSource(dataset_dir)
for item in source:
print(item.image, item.meta['filename'], item.meta['tags'])
```
## List of Clusters
List of tag clustering result, maybe some outfits can be mined here.
### Raw Text Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | Tags |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 0 | 9 |  |  |  |  |  | 1girl, blush, open_mouth, solo, dress, chestnut_mouth |
| 1 | 10 |  |  |  |  |  | 1girl, bangs, black_bowtie, looking_at_viewer, open_mouth, solo, white_dress, hair_between_eyes, long_sleeves, simple_background, blush, chestnut_mouth, puffy_sleeves, white_background, drill_locks, one-hour_drawing_challenge, upper_body, wide_sleeves |
| 2 | 9 |  |  |  |  |  | 2girls, dress, chestnut_mouth, open_mouth |
| 3 | 23 |  |  |  |  |  | loli, 1girl, nipples, nude, blush, solo, flat_chest, pussy, navel, open_mouth, chestnut_mouth |
| 4 | 14 |  |  |  |  |  | hetero, 1girl, loli, penis, solo_focus, 1boy, blush, flat_chest, nipples, sex, nude, open_mouth, vaginal, censored, cum_in_pussy, navel, tears, chestnut_mouth |
| 5 | 8 |  |  |  |  |  | 1boy, 1girl, blush, hetero, loli, penis, solo_focus, censored, facial, fellatio, cum_on_body, flat_chest, nipples, nude, one_eye_closed |
| 6 | 5 |  |  |  |  |  | 1girl, loli, no_panties, pussy, solo, blush, dress_lift, peeing, navel, censored, squatting |
| 7 | 9 |  |  |  |  |  | 1girl, blush, flat_chest, loli, solo, nipples, topless, barefoot, white_panties, underwear_only |
| 8 | 6 |  |  |  |  |  | bangs, beret, blush, cowboy_shot, long_sleeves, pleated_skirt, sailor_collar, serafuku, white_panties, yellow_neckerchief, 1girl, bespectacled, plaid_skirt, solo, alternate_costume, indoors, miniskirt, standing, contemporary, grey_skirt, hair_between_eyes, looking_at_viewer, sleeves_past_wrists |
### Table Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | 1girl | blush | open_mouth | solo | dress | chestnut_mouth | bangs | black_bowtie | looking_at_viewer | white_dress | hair_between_eyes | long_sleeves | simple_background | puffy_sleeves | white_background | drill_locks | one-hour_drawing_challenge | upper_body | wide_sleeves | 2girls | loli | nipples | nude | flat_chest | pussy | navel | hetero | penis | solo_focus | 1boy | sex | vaginal | censored | cum_in_pussy | tears | facial | fellatio | cum_on_body | one_eye_closed | no_panties | dress_lift | peeing | squatting | topless | barefoot | white_panties | underwear_only | beret | cowboy_shot | pleated_skirt | sailor_collar | serafuku | yellow_neckerchief | bespectacled | plaid_skirt | alternate_costume | indoors | miniskirt | standing | contemporary | grey_skirt | sleeves_past_wrists |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------|:--------|:-------------|:-------|:--------|:-----------------|:--------|:---------------|:--------------------|:--------------|:--------------------|:---------------|:--------------------|:----------------|:-------------------|:--------------|:-----------------------------|:-------------|:---------------|:---------|:-------|:----------|:-------|:-------------|:--------|:--------|:---------|:--------|:-------------|:-------|:------|:----------|:-----------|:---------------|:--------|:---------|:-----------|:--------------|:-----------------|:-------------|:-------------|:---------|:------------|:----------|:-----------|:----------------|:-----------------|:--------|:--------------|:----------------|:----------------|:-----------|:---------------------|:---------------|:--------------|:--------------------|:----------|:------------|:-----------|:---------------|:-------------|:----------------------|
| 0 | 9 |  |  |  |  |  | X | X | X | X | X | X | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
| 1 | 10 |  |  |  |  |  | X | X | X | X | | X | X | X | X | X | X | X | X | X | X | X | X | X | X | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
| 2 | 9 |  |  |  |  |  | | | X | | X | X | | | | | | | | | | | | | | X | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
| 3 | 23 |  |  |  |  |  | X | X | X | X | | X | | | | | | | | | | | | | | | X | X | X | X | X | X | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
| 4 | 14 |  |  |  |  |  | X | X | X | | | X | | | | | | | | | | | | | | | X | X | X | X | | X | X | X | X | X | X | X | X | X | X | | | | | | | | | | | | | | | | | | | | | | | | | | | |
| 5 | 8 |  |  |  |  |  | X | X | | | | | | | | | | | | | | | | | | | X | X | X | X | | | X | X | X | X | | | X | | | X | X | X | X | | | | | | | | | | | | | | | | | | | | | | | |
| 6 | 5 |  |  |  |  |  | X | X | | X | | | | | | | | | | | | | | | | | X | | | | X | X | | | | | | | X | | | | | | | X | X | X | X | | | | | | | | | | | | | | | | | | | |
| 7 | 9 |  |  |  |  |  | X | X | | X | | | | | | | | | | | | | | | | | X | X | | X | | | | | | | | | | | | | | | | | | | | X | X | X | X | | | | | | | | | | | | | | | |
| 8 | 6 |  |  |  |  |  | X | X | | X | | | X | | X | | X | X | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | X | | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X |
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集名称
Dataset of luna_child/ルナチャイルド/루나차일드 (Touhou)
数据集描述
该数据集包含500张图像及其标签,主题为luna_child/ルナチャイルド/루나차일드 (Touhou)。图像主要标签包括blonde_hair, drill_hair, hat, short_hair, wings, red_eyes, bow, fairy_wings, white_headwear。
数据集来源
图像从多个网站(如danbooru, pixiv, zerochan等)爬取,爬虫系统由DeepGHS Team开发。
数据集包列表
| 名称 | 图像数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 500 | 411.70 MiB | Waifuc-Raw | 原始数据,包含元信息(最小边对齐到1400像素,如果更大) |
| 800 | 500 | 300.33 MiB | IMG+TXT | 短边不超过800像素的图像数据集 |
| stage3-p480-800 | 1021 | 583.72 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
| 1200 | 500 | 388.00 MiB | IMG+TXT | 短边不超过1200像素的图像数据集 |
| stage3-p480-1200 | 1021 | 713.29 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
标签聚类结果
原始文本版本
| # | 样本数量 | 图像1 | 图像2 | 图像3 | 图像4 | 图像5 | 标签 |
|---|---|---|---|---|---|---|---|
| 0 | 9 | 图像 | 图像 | 图像 | 图像 | 图像 | 标签 |
| 1 | 10 | 图像 | 图像 | 图像 | 图像 | 图像 | 标签 |
| 2 | 9 | 图像 | 图像 | 图像 | 图像 | 图像 | 标签 |
| 3 | 23 | 图像 | 图像 | 图像 | 图像 | 图像 | 标签 |
| 4 | 14 | 图像 | 图像 | 图像 | 图像 | 图像 | 标签 |
| 5 | 8 | 图像 | 图像 | 图像 | 图像 | 图像 | 标签 |
| 6 | 5 | 图像 | 图像 | 图像 | 图像 | 图像 | 标签 |
| 7 | 9 | 图像 | 图像 | 图像 | 图像 | 图像 | 标签 |
| 8 | 6 | 图像 | 图像 | 图像 | 图像 | 图像 | 标签 |
表格版本
| # | 样本数量 | 图像1 | 图像2 | 图像3 | 图像4 | 图像5 | 1girl | blush | open_mouth | solo | dress | chestnut_mouth | 标签 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 9 | 图像 | 图像 | 图像 | 图像 | 图像 | X | X | X | X | X | X | 标签 |
| 1 | 10 | 图像 | 图像 | 图像 | 图像 | 图像 | X | X | X | X | X | 标签 | |
| 2 | 9 | 图像 | 图像 | 图像 | 图像 | 图像 | X | X | X | 标签 | |||
| 3 | 23 | 图像 | 图像 | 图像 | 图像 | 图像 | X | X | X | X | X | 标签 | |
| 4 | 14 | 图像 | 图像 | 图像 | 图像 | 图像 | X | X | X | X | 标签 | ||
| 5 | 8 | 图像 | 图像 | 图像 | 图像 | 图像 | X | X | 标签 | ||||
| 6 | 5 | 图像 | 图像 | 图像 | 图像 | 图像 | X | X | X | 标签 | |||
| 7 | 9 | 图像 | 图像 | 图像 | 图像 | 图像 | X | X | X | 标签 | |||
| 8 | 6 | 图像 | 图像 | 图像 | 图像 | 图像 | X | X | X | 标签 |
搜集汇总
数据集介绍

构建方式
在动漫角色图像数据集的构建领域,本数据集聚焦于《东方Project》中的角色“luna_child”,其构建过程体现了系统化的数据采集与处理流程。原始图像通过自动化爬虫系统从Danbooru、Pixiv、Zerochan等多个知名动漫艺术社区广泛搜集,确保了图像来源的多样性与代表性。采集后的数据经过预处理,包括核心标签的精简与图像尺寸的标准化调整,例如将较长边对齐至1400像素,以维持视觉一致性并优化存储效率。这一构建方法不仅保障了数据的规模与质量,也为后续的模型训练提供了结构化的基础。
特点
该数据集在动漫角色图像数据集中展现出鲜明的专属性与结构性特征。其核心在于围绕单一角色“luna_child”构建,包含500幅高质量图像及对应标签,标签体系经过精心修剪,突出了角色的标志性视觉属性,如金发、钻头发型、翅膀等。数据集提供了多种预处理版本,包括不同分辨率(如800、1200像素)及多阶段裁剪变体,满足了从基础研究到细节生成的不同计算需求。此外,附带的聚类分析结果揭示了图像在姿态、服饰与场景上的潜在模式,为风格分析与内容挖掘提供了深层洞察。
使用方法
在文本到图像生成的研究与应用中,本数据集为模型训练与评估提供了便捷的接入方式。用户可通过Hugging Face Hub直接下载原始或预处理后的图像-文本对压缩包,并利用提供的Python代码示例,通过Waifuc工具加载包含元信息的原始数据,实现图像与标签的配对访问。对于不同计算需求,可选择合适尺寸的数据包进行本地解压与集成。数据集的聚类表格进一步辅助用户进行子集筛选或风格分析,使其能够灵活适配于角色特定生成、标签学习或视觉多样性探索等任务场景。
背景与挑战
背景概述
在动漫艺术与生成式人工智能交叉领域,角色特定图像数据集的构建对于推动文本到图像生成模型的精细化发展具有关键意义。CyberHarem/luna_child_touhou数据集由DeepGHS团队创建,专注于东方Project系列中的角色“Luna Child”,旨在为社区提供高质量、多标签标注的角色图像资源。该数据集收录了500张从Danbooru、Pixiv等主流动漫艺术平台爬取的图像,并经过系统化处理,提供了包括原始尺寸及多种分辨率版本在内的多个数据包。其核心研究问题在于如何通过结构化、多角度的视觉数据,支持生成模型在特定角色特征上的学习与泛化能力,进而促进动漫风格图像生成技术的进步。
当前挑战
该数据集致力于解决动漫角色图像生成中特定角色特征一致性与多样性的平衡问题,其挑战在于如何确保生成模型能够准确捕捉“Luna Child”的标志性视觉属性,如金发、钻头状发型、翅膀等核心特征,同时避免过度拟合导致的风格僵化。在构建过程中,挑战主要集中于多源图像数据的采集与清洗,需从不同平台爬取图像并统一标注标准;此外,数据预处理涉及尺寸归一化与裁剪策略的优化,以在保留细节与适配模型输入之间取得平衡,而标签体系的构建也需要处理语义重叠与稀疏性问题,以确保标注的准确性与完整性。
常用场景
经典使用场景
在动漫艺术与生成式人工智能的交汇领域,CyberHarem/luna_child_touhou数据集以其精心标注的东方Project角色“ルナチャイルド”图像集合,为文本到图像生成模型提供了高质量的微调素材。该数据集通过整合来自Danbooru、Pixiv等平台的500张图像及其对应标签,构建了角色特征与视觉表现之间的结构化映射。研究者常利用其多尺寸版本(如800像素短边限制或三阶段裁剪版本)来训练扩散模型,以探索在保持角色核心属性(如金发、翅膀、红色瞳孔)的前提下,生成多样化风格与姿态的图像,从而深化对二次元角色一致性生成的技术理解。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在动漫风格生成模型的优化与评估方面。例如,基于其标签聚类结果的研究探索了角色属性解耦表示方法,为可控图像生成提供了新思路。同时,结合Waifuc工具链的数据处理流程,催生了针对二次元图像的数据清洗与增强技术改进。在学术社区中,该数据集常被引用为测试基准,用于比较不同文本到图像模型在角色一致性、细节还原度等方面的性能,进而推动了如稳定扩散模型在动漫领域的适配与微调策略的创新发展。
数据集最近研究
最新研究方向
在动漫角色生成领域,针对特定角色的高质量图像数据集正成为文本到图像模型微调的关键资源。CyberHarem/luna_child_touhou数据集聚焦于东方Project中的角色“Luna Child”,其精细的标签体系与多尺度图像版本,为角色一致性生成与风格化适配研究提供了实验基础。当前前沿探索集中于利用此类标注数据提升生成模型对复杂角色属性(如发饰、翅膀等标志性特征)的保真度,并推动跨平台动漫角色生成技术的实用化发展。该数据集的出现,呼应了社区对细分角色生成需求的增长,其结构化标注方案亦为后续的标签语义分析与生成可控性研究提供了有价值的范例。
以上内容由遇见数据集搜集并总结生成



