CyberHarem/momi_pokemon
收藏Hugging Face2024-01-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/momi_pokemon
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-to-image
tags:
- art
- not-for-all-audiences
size_categories:
- n<1K
---
# Dataset of momi (Pokémon)
This is the dataset of momi (Pokémon), containing 105 images and their tags.
The core tags of this character are `green_hair, long_hair, braid, single_braid, green_eyes, breasts, hair_over_shoulder, hair_between_eyes, bangs, large_breasts`, which are pruned in this dataset.
Images are crawled from many sites (e.g. danbooru, pixiv, zerochan ...), the auto-crawling system is powered by [DeepGHS Team](https://github.com/deepghs)([huggingface organization](https://huggingface.co/deepghs)).
## List of Packages
| Name | Images | Size | Download | Type | Description |
|:-----------------|---------:|:-----------|:--------------------------------------------------------------------------------------------------------------|:-----------|:---------------------------------------------------------------------|
| raw | 105 | 91.75 MiB | [Download](https://huggingface.co/datasets/CyberHarem/momi_pokemon/resolve/main/dataset-raw.zip) | Waifuc-Raw | Raw data with meta information (min edge aligned to 1400 if larger). |
| 800 | 105 | 57.02 MiB | [Download](https://huggingface.co/datasets/CyberHarem/momi_pokemon/resolve/main/dataset-800.zip) | IMG+TXT | dataset with the shorter side not exceeding 800 pixels. |
| stage3-p480-800 | 188 | 107.87 MiB | [Download](https://huggingface.co/datasets/CyberHarem/momi_pokemon/resolve/main/dataset-stage3-p480-800.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
| 1200 | 105 | 82.08 MiB | [Download](https://huggingface.co/datasets/CyberHarem/momi_pokemon/resolve/main/dataset-1200.zip) | IMG+TXT | dataset with the shorter side not exceeding 1200 pixels. |
| stage3-p480-1200 | 188 | 148.89 MiB | [Download](https://huggingface.co/datasets/CyberHarem/momi_pokemon/resolve/main/dataset-stage3-p480-1200.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
### Load Raw Dataset with Waifuc
We provide raw dataset (including tagged images) for [waifuc](https://deepghs.github.io/waifuc/main/tutorials/installation/index.html) loading. If you need this, just run the following code
```python
import os
import zipfile
from huggingface_hub import hf_hub_download
from waifuc.source import LocalSource
# download raw archive file
zip_file = hf_hub_download(
repo_id='CyberHarem/momi_pokemon',
repo_type='dataset',
filename='dataset-raw.zip',
)
# extract files to your directory
dataset_dir = 'dataset_dir'
os.makedirs(dataset_dir, exist_ok=True)
with zipfile.ZipFile(zip_file, 'r') as zf:
zf.extractall(dataset_dir)
# load the dataset with waifuc
source = LocalSource(dataset_dir)
for item in source:
print(item.image, item.meta['filename'], item.meta['tags'])
```
## List of Clusters
List of tag clustering result, maybe some outfits can be mined here.
### Raw Text Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | Tags |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 0 | 9 |  |  |  |  |  | 1girl, green_jacket, green_skirt, long_sleeves, open_mouth, :d, closed_eyes, pokemon_(creature), eyelashes, blush_stickers, boots, shirt |
| 1 | 5 |  |  |  |  |  | 1girl, closed_mouth, hand_up, white_background, green_jacket, green_skirt, long_sleeves, simple_background, smile, solo, sketch, braided_ponytail, brown_footwear, dress, looking_at_viewer, shirt |
| 2 | 5 |  |  |  |  |  | 1girl, open_mouth, smile, solo, blush, closed_eyes, green_dress, skirt |
| 3 | 6 |  |  |  |  |  | 1girl, nipples, solo, nude, blush, female_pubic_hair, pussy, spread_legs, closed_eyes, navel, sweat |
| 4 | 7 |  |  |  |  |  | 1girl, hetero, sex, 1boy, blush, open_mouth, penis, vaginal, cum_in_pussy, nipples, censored, solo_focus, sweat, girl_on_top, nude, saliva, straddling, tongue_out |
### Table Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | 1girl | green_jacket | green_skirt | long_sleeves | open_mouth | :d | closed_eyes | pokemon_(creature) | eyelashes | blush_stickers | boots | shirt | closed_mouth | hand_up | white_background | simple_background | smile | solo | sketch | braided_ponytail | brown_footwear | dress | looking_at_viewer | blush | green_dress | skirt | nipples | nude | female_pubic_hair | pussy | spread_legs | navel | sweat | hetero | sex | 1boy | penis | vaginal | cum_in_pussy | censored | solo_focus | girl_on_top | saliva | straddling | tongue_out |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------|:---------------|:--------------|:---------------|:-------------|:-----|:--------------|:---------------------|:------------|:-----------------|:--------|:--------|:---------------|:----------|:-------------------|:--------------------|:--------|:-------|:---------|:-------------------|:-----------------|:--------|:--------------------|:--------|:--------------|:--------|:----------|:-------|:--------------------|:--------|:--------------|:--------|:--------|:---------|:------|:-------|:--------|:----------|:---------------|:-----------|:-------------|:--------------|:---------|:-------------|:-------------|
| 0 | 9 |  |  |  |  |  | X | X | X | X | X | X | X | X | X | X | X | X | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
| 1 | 5 |  |  |  |  |  | X | X | X | X | | | | | | | | X | X | X | X | X | X | X | X | X | X | X | X | | | | | | | | | | | | | | | | | | | | | | |
| 2 | 5 |  |  |  |  |  | X | | | | X | | X | | | | | | | | | | X | X | | | | | | X | X | X | | | | | | | | | | | | | | | | | | | |
| 3 | 6 |  |  |  |  |  | X | | | | | | X | | | | | | | | | | | X | | | | | | X | | | X | X | X | X | X | X | X | | | | | | | | | | | | |
| 4 | 7 |  |  |  |  |  | X | | | | X | | | | | | | | | | | | | | | | | | | X | | | X | X | | | | | X | X | X | X | X | X | X | X | X | X | X | X | X |
许可证:MIT
任务类别:
- 文本到图像生成
标签:
- 艺术创作
- 非全年龄段受众
规模类别:
- 样本量少于1000
# 宝可梦莫米(momi)数据集
本数据集为宝可梦角色莫米(momi)的相关数据集,包含105张图片及其对应的标签。
该角色的核心标签为`绿发(green_hair)、长发(long_hair)、编发(braid)、单编发(single_braid)、绿眼(green_eyes)、胸部(breasts)、披肩发(hair_over_shoulder)、额间碎发(hair_between_eyes)、刘海(bangs)、巨乳(large_breasts)`,本数据集已对这些核心标签进行了剪枝处理。
本数据集的图片爬取自多个平台(例如danbooru、pixiv、zerochan等),自动爬取系统由DeepGHS团队([Hugging Face 组织](https://huggingface.co/deepghs))提供技术支持。
## 包列表
| 包名称 | 图片数量 | 总大小 | 下载链接 | 类型 | 描述 |
|:-----------------|---------:|:-----------|:--------------------------------------------------------------------------------------------------------------|:-----------|:---------------------------------------------------------------------|
| 原始数据(raw) | 105 | 91.75 MiB | [下载](https://huggingface.co/datasets/CyberHarem/momi_pokemon/resolve/main/dataset-raw.zip) | Waifuc-Raw | 包含元数据的原始数据集(当图片长边超过1400像素时,最短边将对齐至1400像素)。 |
| 800分辨率版本 | 105 | 57.02 MiB | [下载](https://huggingface.co/datasets/CyberHarem/momi_pokemon/resolve/main/dataset-800.zip) | IMG+TXT | 最短边不超过800像素的数据集。 |
| stage3-p480-800 | 188 | 107.87 MiB | [下载](https://huggingface.co/datasets/CyberHarem/momi_pokemon/resolve/main/dataset-stage3-p480-800.zip) | IMG+TXT | 经过3阶段裁剪的数据集,裁剪区域不小于480×480像素。 |
| 1200分辨率版本 | 105 | 82.08 MiB | [下载](https://huggingface.co/datasets/CyberHarem/momi_pokemon/resolve/main/dataset-1200.zip) | IMG+TXT | 最短边不超过1200像素的数据集。 |
| stage3-p480-1200 | 188 | 148.89 MiB | [下载](https://huggingface.co/datasets/CyberHarem/momi_pokemon/resolve/main/dataset-stage3-p480-1200.zip) | IMG+TXT | 经过3阶段裁剪的数据集,裁剪区域不小于480×480像素。 |
### 使用Waifuc加载原始数据集
我们提供了包含标签信息的原始数据集,可用于[Waifuc工具](https://deepghs.github.io/waifuc/main/tutorials/installation/index.html)加载。如需使用,请运行以下代码:
python
import os
import zipfile
from huggingface_hub import hf_hub_download
from waifuc.source import LocalSource
# 下载原始压缩归档文件
zip_file = hf_hub_download(
repo_id='CyberHarem/momi_pokemon',
repo_type='dataset',
filename='dataset-raw.zip',
)
# 解压文件至目标目录
dataset_dir = 'dataset_dir'
os.makedirs(dataset_dir, exist_ok=True)
with zipfile.ZipFile(zip_file, 'r') as zf:
zf.extractall(dataset_dir)
# 通过Waifuc加载数据集
source = LocalSource(dataset_dir)
for item in source:
print(item.image, item.meta['filename'], item.meta['tags'])
## 聚类列表
本部分为标签聚类结果,可从中挖掘相关穿搭风格。
### 原始文本版本
| 序号 | 样本数量 | 示例图1 | 示例图2 | 示例图3 | 示例图4 | 示例图5 | 标签 |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 0 | 9 |  |  |  |  |  | 单女性(1girl)、绿色夹克(green_jacket)、绿色短裙(green_skirt)、长袖(long_sleeves)、张嘴(open_mouth)、开心大笑(:d)、闭眼(closed_eyes)、宝可梦(生物)(pokemon_(creature))、睫毛(eyelashes)、腮红贴纸(blush_stickers)、靴子(boots)、衬衫(shirt) |
| 1 | 5 |  |  |  |  |  | 单女性(1girl)、闭嘴(closed_mouth)、抬手(hand_up)、纯白背景(white_background)、绿色夹克(green_jacket)、绿色短裙(green_skirt)、长袖(long_sleeves)、简约背景(simple_background)、微笑(smile)、单人(solo)、速写(sketch)、编发马尾(braided_ponytail)、棕色鞋履(brown_footwear)、连衣裙(dress)、看向镜头(looking_at_viewer)、衬衫(shirt) |
| 2 | 5 |  |  |  |  |  | 单女性(1girl)、张嘴(open_mouth)、微笑(smile)、单人(solo)、脸红(blush)、闭眼(closed_eyes)、绿色连衣裙(green_dress)、短裙(skirt) |
| 3 | 6 |  |  |  |  |  | 单女性(1girl)、乳头(nipples)、单人(solo)、全裸(nude)、脸红(blush)、女性阴毛(female_pubic_hair)、阴部(pussy)、分腿(spread_legs)、闭眼(closed_eyes)、肚脐(navel)、出汗(sweat) |
| 4 | 7 |  |  |  |  |  | 单女性(1girl)、异性性行为(hetero)、性交(sex)、一位男性(1boy)、脸红(blush)、张嘴(open_mouth)、阴茎(penis)、阴道(vaginal)、阴道内射精(cum_in_pussy)、乳头(nipples)、打码(censored)、聚焦单人(solo_focus)、出汗(sweat)、女上位(girl_on_top)、全裸(nude)、唾液(saliva)、跨坐(straddling)、吐舌(tongue_out) |
### 表格版本
| 序号 | 样本数量 | 示例图1 | 示例图2 | 示例图3 | 示例图4 | 示例图5 | 单女性(1girl) | 绿色夹克(green_jacket) | 绿色短裙(green_skirt) | 长袖(long_sleeves) | 张嘴(open_mouth) | 开心大笑(:d) | 闭眼(closed_eyes) | 宝可梦(生物)(pokemon_(creature)) | 睫毛(eyelashes) | 腮红贴纸(blush_stickers) | 靴子(boots) | 衬衫(shirt) | 闭嘴(closed_mouth) | 抬手(hand_up) | 纯白背景(white_background) | 简约背景(simple_background) | 微笑(smile) | 单人(solo) | 速写(sketch) | 编发马尾(braided_ponytail) | 棕色鞋履(brown_footwear) | 连衣裙(dress) | 看向镜头(looking_at_viewer) | 脸红(blush) | 绿色连衣裙(green_dress) | 短裙(skirt) | 乳头(nipples) | 全裸(nude) | 女性阴毛(female_pubic_hair) | 阴部(pussy) | 分腿(spread_legs) | 肚脐(navel) | 出汗(sweat) | 异性性行为(hetero) | 性交(sex) | 一位男性(1boy) | 阴茎(penis) | 阴道(vaginal) | 阴道内射精(cum_in_pussy) | 打码(censored) | 聚焦单人(solo_focus) | 女上位(girl_on_top) | 唾液(saliva) | 跨坐(straddling) | 吐舌(tongue_out) |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------|:---------------|:--------------|:---------------|:-------------|:-----|:--------------|:---------------------|:------------|:-----------------|:--------|:--------|:---------------|:----------|:-------------------|:--------------------|:--------|:-------|:---------|:-------------------|:-----------------|:--------|:--------------------|:--------|:--------------|:--------|:----------|:-------|:--------------------|:--------|:--------------|:--------|:--------|:---------|:------|:-------|:--------|:----------|:---------------|:-----------|:-------------|:--------------|:---------|:-------------|:-------------|
| 0 | 9 |  |  |  |  |  | X | X | X | X | X | X | X | X | X | X | X | X | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
| 1 | 5 |  |  |  |  |  | X | X | X | X | | | | | | | | X | X | X | X | X | X | X | X | X | X | X | X | | | | | | | | | | | | | | | | | | | | | | |
| 2 | 5 |  |  |  |  |  | X | | | | X | | X | | | | | | | | | | X | X | | | | | | X | X | X | | | | | | | | | | | | | | | | | | | |
| 3 | 6 |  |  |  |  |  | X | | | | | | X | | | | | | | | | | | X | | | | | | X | | | X | X | X | X | X | X | X | | | | | | | | | | | | |
| 4 | 7 |  |  |  |  |  | X | | | | X | | | | | | | | | | | | | | | | | | | X | | | X | X | | | | | X | X | X | X | X | X | X | X | X | X | X | X | X |
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集信息
- 名称: Dataset of momi (Pokémon)
- 描述: 包含105张图片及其标签的数据集。
- 核心标签:
green_hair, long_hair, braid, single_braid, green_eyes, breasts, hair_over_shoulder, hair_between_eyes, bangs, large_breasts - 标签: art, not-for-all-audiences
- 大小: n<1K
数据集包列表
| 名称 | 图片数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 105 | 91.75 MiB | Waifuc-Raw | 包含元信息的原始数据(最小边对齐到1400像素,如果更大)。 |
| 800 | 105 | 57.02 MiB | IMG+TXT | 短边不超过800像素的数据集。 |
| stage3-p480-800 | 188 | 107.87 MiB | IMG+TXT | 3阶段裁剪数据集,面积不小于480x480像素。 |
| 1200 | 105 | 82.08 MiB | IMG+TXT | 短边不超过1200像素的数据集。 |
| stage3-p480-1200 | 188 | 148.89 MiB | IMG+TXT | 3阶段裁剪数据集,面积不小于480x480像素。 |
标签聚类结果
原始文本版本
| # | 样本数量 | 图片示例 | 标签 |
|---|---|---|---|
| 0 | 9 | ![]() |
1girl, green_jacket, green_skirt, long_sleeves, open_mouth, :d, closed_eyes, pokemon_(creature), eyelashes, blush_stickers, boots, shirt |
| 1 | 5 | ![]() |
1girl, closed_mouth, hand_up, white_background, green_jacket, green_skirt, long_sleeves, simple_background, smile, solo, sketch, braided_ponytail, brown_footwear, dress, looking_at_viewer, shirt |
| 2 | 5 | ![]() |
1girl, open_mouth, smile, solo, blush, closed_eyes, green_dress, skirt |
| 3 | 6 | ![]() |
1girl, nipples, solo, nude, blush, female_pubic_hair, pussy, spread_legs, closed_eyes, navel, sweat |
| 4 | 7 | ![]() |
1girl, hetero, sex, 1boy, blush, open_mouth, penis, vaginal, cum_in_pussy, nipples, censored, solo_focus, sweat, girl_on_top, nude, saliva, straddling, tongue_out |
表格版本
| # | 样本数量 | 图片示例 | 1girl | green_jacket | green_skirt | long_sleeves | open_mouth | :d | closed_eyes | pokemon_(creature) | eyelashes | blush_stickers | boots | shirt | closed_mouth | hand_up | white_background | simple_background | smile | solo | sketch | braided_ponytail | brown_footwear | dress | looking_at_viewer | blush | green_dress | skirt | nipples | nude | female_pubic_hair | pussy | spread_legs | navel | sweat | hetero | sex | 1boy | penis | vaginal | cum_in_pussy | censored | solo_focus | girl_on_top | saliva | straddling | tongue_out |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 9 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X |
搜集汇总
数据集介绍

构建方式
在动漫角色数据集的构建领域,CyberHarem/momi_pokemon数据集通过自动化爬虫技术,从Danbooru、Pixiv、Zerochan等多个知名艺术社区系统性地收集了105幅以宝可梦角色“momi”为主题的图像。原始数据经过预处理,确保图像最小边缘对齐至1400像素,并剔除了核心特征标签,保留了丰富的元信息。这一过程依托DeepGHS团队开发的先进爬虫框架,实现了高效、结构化的数据采集与整理,为后续的模型训练奠定了坚实基础。
使用方法
研究者可通过Hugging Face平台直接下载数据包的压缩文件,包含原始版本及多种尺寸变体,适用于图像生成与标注分析任务。对于高级应用,可利用提供的Waifuc工具加载原始数据,通过Python代码解压并访问图像及其元标签,实现自动化处理流程。数据集的聚类结果还可用于挖掘角色视觉模式,辅助生成模型训练或内容分析,为动漫艺术研究提供结构化支持。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的时代背景下,针对特定动漫角色的高质量图像数据需求日益增长。CyberHarem/momi_pokemon数据集应运而生,由DeepGHS团队构建并发布于HuggingFace平台。该数据集聚焦于《宝可梦》系列中的角色“momi”,核心研究问题在于为文本到图像生成模型提供精确对齐的、带有丰富语义标签的角色视觉素材。其通过自动化爬虫系统从Danbooru、Pixiv等主流艺术社区采集了105张图像,并进行了细致的标签修剪与多尺度处理,旨在推动二次元角色生成技术在风格一致性与细节还原度上的进步,对动漫内容生成领域具有特定的参考价值。
当前挑战
该数据集致力于解决文本到图像生成领域中,针对特定动漫角色进行高保真、风格化图像合成的挑战。其核心难题在于如何确保生成图像在角色外观、服饰细节及艺术风格上与原设保持高度一致,同时处理角色在多样姿态与场景下的视觉表现。在构建过程中,挑战主要源于数据采集与标注:从多个异构平台爬取的图像在质量、分辨率与标签规范上存在显著差异,需要进行复杂的清洗、对齐与标准化处理;此外,对核心特征标签(如绿色头发、辫子等)的精准提取与修剪,以及对部分成人内容(Not-For-All-Audiences)的识别与管理,均增加了数据集构建的技术与伦理复杂度。
常用场景
经典使用场景
在动漫艺术与生成式人工智能的交汇领域,CyberHarem/momi_pokemon数据集以其精心标注的宝可梦角色“momi”图像,为文本到图像生成模型提供了高质量的微调素材。该数据集通过整合来自Danbooru、Pixiv等平台的105幅图像及其精细化标签,典型地服务于风格化角色形象的生成与重构研究。研究者可借助其多尺寸版本(如800像素与1200像素变体)及三阶段裁剪数据,深入探索在特定动漫美学约束下,文本提示与视觉特征之间的对齐机制,尤其在二次元角色设计领域展现了其作为基准数据的价值。
解决学术问题
该数据集针对动漫图像生成研究中数据稀缺与标注一致性不足的挑战,提供了解决方案。通过系统化采集与标签修剪,它缓解了生成模型在捕捉特定角色属性(如绿色长发、编织发型等)时的语义鸿沟问题。其意义在于为细粒度属性控制生成任务建立了可复现的实验基础,推动了生成模型在理解复杂视觉描述符方面的进步,对提升生成内容的准确性与艺术连贯性具有实质影响,为动漫风格迁移与个性化内容创作研究提供了关键数据支撑。
实际应用
在实际应用层面,该数据集直接赋能动漫内容创作与数字娱乐产业。开发者可基于其训练定制化生成模型,用于游戏角色设计、同人艺术创作或个性化虚拟形象生成。其提供的多分辨率与裁剪版本适配了不同部署环境的需求,从移动端应用到高清渲染管线均可受益。此外,数据集隐含的服饰与场景聚类信息,为自动化角色换装、姿势合成等娱乐应用提供了数据基础,体现了从学术研究到产业落地的顺畅过渡。
数据集最近研究
最新研究方向
在动漫艺术与生成式人工智能的交汇领域,CyberHarem/momi_pokemon数据集作为特定角色的图像-文本对集合,正推动着个性化内容生成的前沿探索。该数据集通过精细的标签标注与多尺度图像处理,为风格化角色建模提供了高纯度素材,尤其在可控图像合成方向展现出潜力。当前研究热点聚焦于利用此类数据训练轻量化模型,以实现对角色外观、姿态与场景的精准控制,同时探索跨域风格迁移技术,将动漫角色无缝融入多样化视觉叙事中。这些进展不仅丰富了数字艺术创作的工具集,也为理解生成模型在细分美学领域的表征能力提供了实证基础。
以上内容由遇见数据集搜集并总结生成








