CyberHarem/alice_margatroid_touhou
收藏Hugging Face2024-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/alice_margatroid_touhou
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-to-image
tags:
- art
- not-for-all-audiences
size_categories:
- n<1K
---
# Dataset of alice_margatroid/アリス・マーガトロイド/앨리스마가트로이드 (Touhou)
This is the dataset of alice_margatroid/アリス・マーガトロイド/앨리스마가트로이드 (Touhou), containing 500 images and their tags.
The core tags of this character are `blonde_hair, short_hair, hairband, blue_eyes`, which are pruned in this dataset.
Images are crawled from many sites (e.g. danbooru, pixiv, zerochan ...), the auto-crawling system is powered by [DeepGHS Team](https://github.com/deepghs)([huggingface organization](https://huggingface.co/deepghs)).
## List of Packages
| Name | Images | Size | Download | Type | Description |
|:-----------------|---------:|:-----------|:-------------------------------------------------------------------------------------------------------------------------|:-----------|:---------------------------------------------------------------------|
| raw | 500 | 648.84 MiB | [Download](https://huggingface.co/datasets/CyberHarem/alice_margatroid_touhou/resolve/main/dataset-raw.zip) | Waifuc-Raw | Raw data with meta information (min edge aligned to 1400 if larger). |
| 800 | 500 | 400.85 MiB | [Download](https://huggingface.co/datasets/CyberHarem/alice_margatroid_touhou/resolve/main/dataset-800.zip) | IMG+TXT | dataset with the shorter side not exceeding 800 pixels. |
| stage3-p480-800 | 1180 | 801.30 MiB | [Download](https://huggingface.co/datasets/CyberHarem/alice_margatroid_touhou/resolve/main/dataset-stage3-p480-800.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
| 1200 | 500 | 586.48 MiB | [Download](https://huggingface.co/datasets/CyberHarem/alice_margatroid_touhou/resolve/main/dataset-1200.zip) | IMG+TXT | dataset with the shorter side not exceeding 1200 pixels. |
| stage3-p480-1200 | 1180 | 1.05 GiB | [Download](https://huggingface.co/datasets/CyberHarem/alice_margatroid_touhou/resolve/main/dataset-stage3-p480-1200.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
### Load Raw Dataset with Waifuc
We provide raw dataset (including tagged images) for [waifuc](https://deepghs.github.io/waifuc/main/tutorials/installation/index.html) loading. If you need this, just run the following code
```python
import os
import zipfile
from huggingface_hub import hf_hub_download
from waifuc.source import LocalSource
# download raw archive file
zip_file = hf_hub_download(
repo_id='CyberHarem/alice_margatroid_touhou',
repo_type='dataset',
filename='dataset-raw.zip',
)
# extract files to your directory
dataset_dir = 'dataset_dir'
os.makedirs(dataset_dir, exist_ok=True)
with zipfile.ZipFile(zip_file, 'r') as zf:
zf.extractall(dataset_dir)
# load the dataset with waifuc
source = LocalSource(dataset_dir)
for item in source:
print(item.image, item.meta['filename'], item.meta['tags'])
```
## List of Clusters
List of tag clustering result, maybe some outfits can be mined here.
### Raw Text Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | Tags |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 0 | 6 |  |  |  |  |  | 1girl, capelet, sash, solo, black_pantyhose, blue_dress, lace-up_boots, smile, wrist_cuffs, blush, open_mouth, ribbon |
| 1 | 5 |  |  |  |  |  | 1girl, capelet, sash, solo, blue_dress, bow, looking_at_viewer, smile, blush, book |
| 2 | 7 |  |  |  |  |  | 1girl, capelet, dress, sash, smile, solo, open_mouth, book, bow |
| 3 | 7 |  |  |  |  |  | 1girl, capelet, sash, simple_background, solo, white_background, smile, blue_dress, looking_at_viewer, long_sleeves |
| 4 | 7 |  |  |  |  |  | 1girl, blue_dress, capelet, sash, solo, looking_at_viewer, puppet_strings, ribbon, lolita_hairband, short_sleeves, bow, simple_background, white_background |
| 5 | 27 |  |  |  |  |  | 1girl, looking_at_viewer, solo, blue_dress, hair_between_eyes, red_hairband, white_capelet, bangs, frills, smile, closed_mouth, simple_background, blush, upper_body, white_background, lolita_hairband, breasts, red_necktie, puffy_short_sleeves |
| 6 | 5 |  |  |  |  |  | 1girl, capelet, dress, sash, solo, book, petals, flower, on_side |
### Table Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | 1girl | capelet | sash | solo | black_pantyhose | blue_dress | lace-up_boots | smile | wrist_cuffs | blush | open_mouth | ribbon | bow | looking_at_viewer | book | dress | simple_background | white_background | long_sleeves | puppet_strings | lolita_hairband | short_sleeves | hair_between_eyes | red_hairband | white_capelet | bangs | frills | closed_mouth | upper_body | breasts | red_necktie | puffy_short_sleeves | petals | flower | on_side |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------|:----------|:-------|:-------|:------------------|:-------------|:----------------|:--------|:--------------|:--------|:-------------|:---------|:------|:--------------------|:-------|:--------|:--------------------|:-------------------|:---------------|:-----------------|:------------------|:----------------|:--------------------|:---------------|:----------------|:--------|:---------|:---------------|:-------------|:----------|:--------------|:----------------------|:---------|:---------|:----------|
| 0 | 6 |  |  |  |  |  | X | X | X | X | X | X | X | X | X | X | X | X | | | | | | | | | | | | | | | | | | | | | | | |
| 1 | 5 |  |  |  |  |  | X | X | X | X | | X | | X | | X | | | X | X | X | | | | | | | | | | | | | | | | | | | | |
| 2 | 7 |  |  |  |  |  | X | X | X | X | | | | X | | | X | | X | | X | X | | | | | | | | | | | | | | | | | | | |
| 3 | 7 |  |  |  |  |  | X | X | X | X | | X | | X | | | | | | X | | | X | X | X | | | | | | | | | | | | | | | | |
| 4 | 7 |  |  |  |  |  | X | X | X | X | | X | | | | | | X | X | X | | | X | X | | X | X | X | | | | | | | | | | | | | |
| 5 | 27 |  |  |  |  |  | X | | | X | | X | | X | | X | | | | X | | | X | X | | | X | | X | X | X | X | X | X | X | X | X | X | | | |
| 6 | 5 |  |  |  |  |  | X | X | X | X | | | | | | | | | | | X | X | | | | | | | | | | | | | | | | | X | X | X |
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集信息
- 名称: alice_margatroid/アリス・マーガトロイド/앨리스마가트로이드 (Touhou)
- 许可证: MIT
- 任务类别: text-to-image
- 标签: art, not-for-all-audiences
- 大小类别: n<1K
数据集内容
- 图像数量: 500张
- 核心标签: blonde_hair, short_hair, hairband, blue_eyes
- 来源: 从多个网站(如danbooru, pixiv, zerochan等)爬取
数据包列表
| 名称 | 图像数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 500 | 648.84 MiB | Waifuc-Raw | 包含元信息的原始数据(最小边对齐到1400像素,如果更大)。 |
| 800 | 500 | 400.85 MiB | IMG+TXT | 短边不超过800像素的数据集。 |
| stage3-p480-800 | 1180 | 801.30 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
| 1200 | 500 | 586.48 MiB | IMG+TXT | 短边不超过1200像素的数据集。 |
| stage3-p480-1200 | 1180 | 1.05 GiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
标签聚类结果
原始文本版本
| # | 样本数量 | 图像示例 | 标签 |
|---|---|---|---|
| 0 | 6 | ![]() |
1girl, capelet, sash, solo, black_pantyhose, blue_dress, lace-up_boots, smile, wrist_cuffs, blush, open_mouth, ribbon |
| 1 | 5 | ![]() |
1girl, capelet, sash, solo, blue_dress, bow, looking_at_viewer, smile, blush, book |
| 2 | 7 | ![]() |
1girl, capelet, dress, sash, smile, solo, open_mouth, book, bow |
| 3 | 7 | ![]() |
1girl, capelet, sash, simple_background, solo, white_background, smile, blue_dress, looking_at_viewer, long_sleeves |
| 4 | 7 | ![]() |
1girl, blue_dress, capelet, sash, solo, looking_at_viewer, puppet_strings, ribbon, lolita_hairband, short_sleeves, bow, simple_background, white_background |
| 5 | 27 | ![]() |
1girl, looking_at_viewer, solo, blue_dress, hair_between_eyes, red_hairband, white_capelet, bangs, frills, smile, closed_mouth, simple_background, blush, upper_body, white_background, lolita_hairband, breasts, red_necktie, puffy_short_sleeves |
| 6 | 5 | ![]() |
1girl, capelet, dress, sash, solo, book, petals, flower, on_side |
表格版本
| # | 样本数量 | 图像示例 | 1girl | capelet | sash | solo | black_pantyhose | blue_dress | lace-up_boots | smile | wrist_cuffs | blush | open_mouth | ribbon | bow | looking_at_viewer | book | dress | simple_background | white_background | long_sleeves | puppet_strings | lolita_hairband | short_sleeves | hair_between_eyes | red_hairband | white_capelet | bangs | frills | closed_mouth | upper_body | breasts | red_necktie | puffy_short_sleeves | petals | flower | on_side |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 6 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X |
搜集汇总
数据集介绍

构建方式
在二次元图像生成领域,角色数据集的质量与多样性直接影响模型的表现。本数据集聚焦于东方Project中的知名角色爱丽丝·玛格特罗伊德,通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个站点收集了500张高质量图像及其对应标签。数据集构建过程中,剔除了角色核心标签(如金发、短发、发箍、蓝眼)以避免冗余,并提供了多种预处理版本,包括原始元数据包、短边不超过800或1200像素的标准化版本,以及经过三阶段裁剪且面积不小于480×480像素的增强版本,以满足不同训练需求。
特点
该数据集的核心特色在于其精细的标签聚类结果,通过自动聚类算法将图像按服饰和姿态特征分为多个簇,例如包含披肩、腰带、蓝色连衣裙等元素的组合,每个簇均附有代表性样本图像和详细标签列表。这种结构化组织方式不仅便于用户快速浏览角色不同风格的视觉呈现,还为模型训练中的概念解耦与风格迁移提供了天然的数据基础。此外,数据集提供了多个分辨率与裁剪策略的压缩包,兼顾了存储效率与训练灵活性。
使用方法
数据集支持通过Waifuc工具直接加载原始包,用户可借助Hugging Face Hub下载dataset-raw.zip文件并解压至本地目录,随后利用LocalSource接口轻松遍历图像、文件名及其元标签。对于需要特定分辨率的场景,可直接选用800或1200系列的IMG+TXT格式压缩包。此外,聚类结果以文本和表格两种形式呈现,用户可基于这些信息快速筛选特定风格的子集,或将其作为数据增强与标签重组的参考依据。
背景与挑战
背景概述
该数据集由DeepGHS团队构建,专注于收录《东方Project》系列中的角色爱丽丝·玛格特罗依德(アリス・マーガトロイド)。作为二次元文化中极具代表性的同人创作角色,爱丽丝的形象在文本到图像生成领域具有独特的研究价值。数据集创建于近年,包含500张经过精心筛选的图像及其标签,核心特征如金发、短发、发箍与蓝眼被系统性地标注与修剪。这些图像源自Danbooru、Pixiv、Zerochan等多平台,通过自动化爬取系统采集,并提供了多种分辨率版本(如800像素、1200像素)及三级裁剪版本,以适应不同训练需求。该数据集不仅为动漫风格图像生成模型提供了高质量的训练素材,还通过标签聚类分析(如服装、姿势、背景的归类)推动了角色识别与风格迁移研究的发展,在二次元AI生成社区内产生了显著影响。
当前挑战
该数据集面临的核心挑战首先在于领域问题的复杂性:文本到图像生成任务要求模型精准捕捉角色核心特征(如发型、服饰细节)并避免风格混淆,然而爱丽丝的造型变体众多(如不同服装组合、动作姿势),标签的稀疏性与歧义性可能导致生成结果偏离预期。此外,构建过程中遭遇多重技术壁垒:自动爬取系统需应对多平台反爬机制与图像质量参差不齐的问题,标注数据需人工校验以剔除噪声标签;数据集规模较小(仅500张原始图像),在训练泛化能力强的模型时易引发过拟合;同时,裁剪与缩放策略需平衡图像分辨率与存储效率,确保细节保留与计算资源的合理分配。
常用场景
经典使用场景
在文本到图像生成与角色一致性保持的研究领域中,CyberHarem/alice_margatroid_touhou数据集扮演着关键角色。该数据集精心收录了东方Project中爱丽丝·玛格特罗依德这一角色的500幅高质量图像及其详尽标签,核心特征如金发、短发、发箍与蓝眼已被系统化规整。研究者常将其用于微调扩散模型(如Stable Diffusion),以生成特定角色风格的新图像,或作为评估模型对角色细节与服饰元素(如披肩、腰带、蓝色连衣裙)理解能力的基准。通过提供多种分辨率版本(800px、1200px)及三级裁剪数据集,该资源为训练高保真度的角色专属生成模型奠定了坚实的数据基础。
实际应用
在实际应用中,该数据集赋能了诸多创意工具与娱乐产业需求。游戏与动漫爱好者可借助微调后的模型,快速生成爱丽丝·玛格特罗依德在不同场景下的概念图或同人插画,极大缩短了创作周期。内容平台可利用该数据集训练的角色生成器,实现用户输入文本描述即可定制化产出角色形象的功能,应用于虚拟主播、互动小说等场景。此外,其标签聚类结果(如不同服饰组合的自动分组)直接服务于角色设计中的风格迁移与元素重组,为数字艺术创作提供了高效的技术支撑。
衍生相关工作
该数据集衍生了一系列具有影响力的工作。基于其提供的标准化角色图像与标签,研究者开发了专门用于动漫角色生成的微调工具链(如结合Waifuc框架的数据加载流程),并推动了角色服饰分类与姿态聚类算法的优化。此外,该数据集常被用作评估新兴角色保持模型(如DreamBooth、LoRA)性能的测试集,其标签聚类结果亦启发了面向动漫领域的多模态特征学习研究。这些衍生工作不仅验证了数据集在角色生成任务中的实用性,还促进了社区对动漫图像数据标准化处理的共识形成。
以上内容由遇见数据集搜集并总结生成










