CyberHarem/konpaku_youmu_touhou
收藏Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/konpaku_youmu_touhou
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含500张konpaku_youmu/妖夠/콘파쿠요무(东方系列)角色的图像及其标签,适用于艺术相关的文本到图像任务分析。数据集不适合所有观众,图像来源于多个网站,如danbooru、pixiv、zerochan等。数据集提供不同尺寸和格式的包,支持使用waifuc工具加载,并提供标签聚类结果以供进一步分析。
该数据集包含500张konpaku_youmu/妖夠/콘파쿠요무(东方系列)角色的图像及其标签,适用于艺术相关的文本到图像任务分析。数据集不适合所有观众,图像来源于多个网站,如danbooru、pixiv、zerochan等。数据集提供不同尺寸和格式的包,支持使用waifuc工具加载,并提供标签聚类结果以供进一步分析。
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集信息
- 名称: konpaku_youmu/妖夢/콘파쿠요무 (Touhou)
- 描述: 包含500张图片及其标签的数据集。
- 核心标签:
short_hair, hairband, ribbon, black_hairband, hair_ribbon, white_hair, bangs, black_ribbon, blue_eyes, bow, grey_hair, black_bow - 标签来源: 从多个网站(如danbooru, pixiv, zerochan等)爬取。
数据集包列表
| 名称 | 图片数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 500 | 795.14 MiB | Waifuc-Raw | 包含元信息的原始数据(最小边对齐到1400像素,如果更大)。 |
| 800 | 500 | 435.05 MiB | IMG+TXT | 短边不超过800像素的数据集。 |
| stage3-p480-800 | 1281 | 955.67 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
| 1200 | 500 | 721.30 MiB | IMG+TXT | 短边不超过1200像素的数据集。 |
| stage3-p480-1200 | 1281 | 1.34 GiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
标签聚类结果
原始文本版本
| # | 样本数量 | 图片示例 | 标签 |
|---|---|---|---|
| 0 | 11 | ![]() |
1girl, green_skirt, green_vest, holding_sword, katana, simple_background, solo, white_background, white_shirt, sheath, skirt_set, looking_at_viewer, puffy_short_sleeves, full_body, hitodama, shoes, black_footwear, bowtie, white_socks, closed_mouth |
| 1 | 27 | ![]() |
1girl, green_skirt, green_vest, katana, solo, white_shirt, holding_sword, looking_at_viewer, puffy_short_sleeves, cherry_blossoms, collared_shirt, petals, skirt_set, hitodama, black_bowtie, sheath, closed_mouth, frilled_skirt, flower |
| 2 | 5 | ![]() |
1girl, black_bowtie, collared_shirt, green_skirt, green_vest, hitodama, holding_sword, katana, looking_at_viewer, simple_background, solo, white_background, white_shirt, closed_mouth, puffy_short_sleeves, blush, blue_nails, nail_polish, unsheathing |
| 3 | 6 | ![]() |
1girl, blush, colored_eyelashes, cowboy_shot, green_skirt, green_vest, hitodama, katana, looking_at_viewer, miniskirt, scabbard, solo, white_shirt, black_belt, closed_mouth, collared_shirt, hair_between_eyes, puffy_short_sleeves, standing, holding_sword, open_vest, sheathed, skirt_set, thighs, black_bowtie |
| 4 | 17 | ![]() |
1girl, simple_background, solo, white_shirt, collared_shirt, green_vest, looking_at_viewer, puffy_short_sleeves, white_background, blush, black_bowtie, green_skirt, closed_mouth, hitodama, upper_body, smile, open_mouth |
| 5 | 7 | ![]() |
1girl, katana, solo, hitodama, ghost, skirt, cherry_blossoms, scabbard, vest |
| 6 | 6 | ![]() |
1girl, long_sleeves, looking_at_viewer, obi, solo, alternate_costume, green_kimono, wide_sleeves, floral_print, blush, cowboy_shot, hitodama |
表格版本
| # | 样本数量 | 图片示例 | 1girl | green_skirt | green_vest | holding_sword | katana | simple_background | solo | white_background | white_shirt | sheath | skirt_set | looking_at_viewer | puffy_short_sleeves | full_body | hitodama | shoes | black_footwear | bowtie | white_socks | closed_mouth | cherry_blossoms | collared_shirt | petals | black_bowtie | frilled_skirt | flower | blush | blue_nails | nail_polish | unsheathing | colored_eyelashes | cowboy_shot | miniskirt | scabbard | black_belt | hair_between_eyes | standing | open_vest | sheathed | thighs | upper_body | smile | open_mouth | ghost | skirt | vest | long_sleeves | obi | alternate_costume | green_kimono | wide_sleeves | floral_print |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 11 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | ||||||||||||||||||||||||||||||||
| 1 | 27 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | |||||||||||||||||||||||||||||||||
| 2 | 5 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | |||||||||||||||||||||||||||||||||
| 3 | 6 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | |||||||||||||||||||||||||||
| 4 | 17 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | |||||||||||||||||||||||||||||||||||
| 5 | 7 | ![]() |
X | X | X | X | X | X | X | X | X | |||||||||||||||||||||||||||||||||||||||||||
| 6 | 6 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X |
搜集汇总
数据集介绍

构建方式
在动漫角色图像数据集的构建领域,CyberHarem/konpaku_youmu_touhou数据集聚焦于东方Project系列中的魂魄妖梦这一角色。该数据集通过自动化爬虫系统,从Danbooru、Pixiv、Zerochan等多个知名动漫艺术社区系统性地采集了500幅图像。采集过程中,原始图像附带的元数据标签经过精心修剪,移除了角色核心特征标签,以确保数据集的纯净性与针对性。随后,数据经过多阶段处理,包括边缘对齐、尺寸调整以及区域裁剪,生成了不同分辨率与裁剪策略的数据子集,为后续的模型训练提供了多样化的视觉素材基础。
特点
该数据集的核心特征在于其高度的专业性与结构化处理。数据集不仅提供了原始图像与标签,还包含了经过尺寸归一化处理的多个版本,如短边不超过800像素、1200像素的变体,以及经过三阶段裁剪、确保区域不小于480x480像素的增强子集。此外,数据集通过聚类分析展示了图像在视觉特征与标签组合上的分布,例如不同服饰、姿态与背景的归类,这为研究角色视觉表达的多样性提供了清晰的脉络。这种多层次、多格式的数据组织方式,显著提升了其在文本到图像生成任务中的实用性与可探索性。
使用方法
在计算机视觉与生成式人工智能的应用中,该数据集支持多种灵活的使用方式。研究者可直接下载并加载经过预处理的IMG+TXT格式子集,用于训练图像生成模型。对于需要原始元数据的进阶应用,数据集提供了Waifuc格式的原始压缩包,用户可通过提供的Python代码示例,利用Hugging Face Hub下载并解压,再通过Waifuc工具库加载图像及其完整的标签信息。数据集中包含的聚类结果表格,可用于分析角色视觉特征的常见组合,辅助模型理解特定属性与视觉呈现之间的关联,从而优化生成效果或进行细粒度的风格研究。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的时代,针对特定风格角色的高质量图像数据集成为推动文本到图像模型精细化生成的关键资源。CyberHarem/konpaku_youmu_touhou数据集聚焦于东方Project系列中的角色“魂魄妖梦”,由DeepGHS团队构建并发布于HuggingFace平台。该数据集收录了500幅经过精心标注的图像,旨在为动漫风格角色的视觉特征学习提供结构化数据支持。其核心研究问题在于如何通过精准的语义标签,捕捉并复现二次元角色在多样化艺术表达中的复杂视觉属性,从而服务于个性化内容生成、风格迁移等前沿应用,对动漫衍生创作与生成模型的文化适配性研究具有显著意义。
当前挑战
该数据集致力于解决动漫风格角色图像生成中的细粒度控制挑战,即如何依据文本描述精确生成符合角色设定、姿态与装饰细节的图像。构建过程中的主要挑战体现在数据采集与标注环节:首先,从Danbooru、Pixiv等多元平台爬取图像需克服版权差异与格式不统一的问题,并确保数据质量;其次,角色核心标签的筛选与修剪需要深入理解角色特征,以平衡标签的丰富性与特异性;此外,为适应不同训练需求提供多种预处理版本(如尺寸调整、多阶段裁剪),增加了数据工程复杂性,同时需维持原始艺术风格的完整性。
常用场景
经典使用场景
在动漫角色生成与风格化图像合成领域,该数据集聚焦于东方Project系列中的魂魄妖梦这一角色,通过500张高质量图像及其精细标注的标签,为文本到图像生成模型提供了精准的训练素材。数据集涵盖了角色的核心视觉特征,如短发、发带、白色头发、蓝色眼睛等,这些标注信息能够引导生成模型捕捉角色的典型外观与风格细节,从而在动漫艺术创作中实现高度一致的角色形象生成。
实际应用
在实际应用中,该数据集被广泛用于动漫角色设计、同人创作以及游戏美术资源的自动化生成。基于该数据集训练的模型能够辅助艺术家快速生成魂魄妖梦的多样化形象,包括不同姿态、服饰和背景的变体,显著提升了动漫内容创作的效率与多样性。此外,该数据集还可用于构建个性化的动漫角色生成工具,满足粉丝创作与商业项目的需求。
衍生相关工作
围绕该数据集,衍生出了一系列专注于动漫角色生成的经典研究工作,例如基于标签引导的生成对抗网络模型和扩散模型的优化方法。这些工作利用数据集的精细标注,探索了角色特征解耦、多模态条件生成等技术,进一步推动了动漫风格图像合成领域的发展。同时,该数据集也为跨角色风格迁移和动漫数据集构建方法论提供了重要的参考案例。
以上内容由遇见数据集搜集并总结生成










