five

CyberHarem/koakuma_touhou

收藏
Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/koakuma_touhou
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个名为koakuma/小悪魔/소악마 (Touhou)的数据集,包含500张图像及其标签。图像从多个网站(如danbooru, pixiv, zerochan等)爬取,并由DeepGHS团队提供技术支持。数据集的核心标签包括`head_wings, wings, red_hair, long_hair, bat_wings, red_eyes, breasts`,这些标签在数据集中被修剪。README还提供了数据集的多个版本及其下载链接,以及如何使用waifuc加载原始数据集的示例代码。此外,README还列出了标签聚类结果,展示了不同聚类的样本图像和标签。

This is the dataset of koakuma/小悪魔/소악마 (Touhou), containing 500 images and their tags. The core tags of this character are head_wings, wings, red_hair, long_hair, bat_wings, red_eyes, breasts, which are pruned in this dataset. Images are crawled from many sites (e.g. danbooru, pixiv, zerochan ...), the auto-crawling system is powered by DeepGHS Team. The dataset offers multiple packages for download, each with different specifications regarding image size and format. Additionally, it explains how to load the raw dataset using the waifuc package and provides a list of clusters with sample images and associated tags.
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集基本信息

  • 名称: Dataset of koakuma/小悪魔/소악마 (Touhou)
  • 许可证: MIT
  • 任务类别: text-to-image
  • 标签: art, not-for-all-audiences
  • 大小类别: n<1K

数据集内容

  • 图像数量: 500
  • 核心标签: head_wings, wings, red_hair, long_hair, bat_wings, red_eyes, breasts

数据集包列表

名称 图像数量 大小 类型 描述
raw 500 502.17 MiB Waifuc-Raw 原始数据,包含元信息(最小边对齐到1400像素,如果更大)
800 500 336.81 MiB IMG+TXT 短边不超过800像素的数据集
stage3-p480-800 1098 665.73 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素
1200 500 462.83 MiB IMG+TXT 短边不超过1200像素的数据集
stage3-p480-1200 1098 861.34 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素

标签聚类结果

原始文本版本

# 样本数 图像示例 标签
0 7 1girl, book, shirt, simple_background, solo, long_sleeves, red_necktie, vest, white_background, looking_at_viewer, skirt_set, black_thighhighs, open_mouth, :d, zettai_ryouiki
1 32 1girl, red_necktie, solo, white_shirt, black_vest, collared_shirt, looking_at_viewer, simple_background, bangs, hair_between_eyes, blush, smile, white_background, black_skirt, closed_mouth, juliet_sleeves, upper_body, very_long_hair, cowboy_shot, open_mouth, pointy_ears
2 5 1girl, solo, blush, book, red_necktie, one_eye_closed
3 11 1girl, book, necktie, solo, black_thighhighs, blush, zettai_ryouiki, demon_tail
4 5 1girl, blush, large_breasts, solo, navel, nipples, black_panties, black_thighhighs, demon_tail, underwear_only, bow_panties, bra, lingerie, looking_at_viewer, lying, medium_breasts
5 24 1girl, large_breasts, solo, looking_at_viewer, pointy_ears, smile, blush, marker_(medium), very_long_hair, uneven_eyes, curvy, simple_background, white_background, millipen_(medium), navel, cleavage, swimsuit, convenient_censoring, nude
6 5 1boy, 1girl, blush, hetero, large_breasts, nipples, open_mouth, sex, solo_focus, vaginal, cowgirl_position, girl_on_top, penis, censored, assertive_female, completely_nude, cum_in_pussy, demon_wings, looking_at_viewer, navel, pink_hair, pointy_ears, pov, saliva, smile, sweat

表格版本

# 样本数 图像示例 1girl book shirt simple_background solo long_sleeves red_necktie vest white_background looking_at_viewer skirt_set black_thighhighs open_mouth :d zettai_ryouiki white_shirt black_vest collared_shirt bangs hair_between_eyes blush smile black_skirt closed_mouth juliet_sleeves upper_body very_long_hair cowboy_shot pointy_ears one_eye_closed necktie demon_tail large_breasts navel nipples black_panties underwear_only bow_panties bra lingerie lying medium_breasts marker_(medium) uneven_eyes curvy millipen_(medium) cleavage swimsuit convenient_censoring nude 1boy hetero sex solo_focus vaginal cowgirl_position girl_on_top penis censored assertive_female completely_nude cum_in_pussy demon_wings pink_hair pov saliva sweat
0 7 X X X X X X X X X X X X X X X
搜集汇总
数据集介绍
main_image_url
构建方式
在动漫角色图像数据集的构建领域,CyberHarem/koakuma_touhou数据集聚焦于东方Project中的小恶魔角色,其构建过程体现了系统化采集与处理的严谨性。该数据集通过自动化爬虫系统,从Danbooru、Pixiv、Zerochan等多个知名动漫艺术社区广泛搜集原始图像,确保了数据来源的多样性与代表性。采集后的图像经过预处理,包括核心标签的修剪与多尺度规格化,例如将图像短边统一调整至800或1200像素以内,并采用三阶段裁剪策略保证图像区域不低于480x480像素,从而为文本到图像生成任务提供了结构化的高质量视觉素材。
特点
该数据集在动漫角色图像数据集中展现出鲜明的专项化特征,其核心在于围绕单一角色小恶魔构建了密集且多视角的图像集合。数据集包含500张原始图像及经过扩展处理的版本,每张图像均附有精细的标签标注,这些标签不仅描述了角色标志性的红色头发、蝙蝠翅膀等视觉属性,还涵盖了场景、姿态、服饰等丰富上下文信息。尤为突出的是,数据集提供了基于标签聚类的分析结果,将图像按语义特征划分为多个簇,如特定服装搭配或场景类型,这为研究角色表征的语义解耦与可控生成提供了宝贵的结构化洞察。
使用方法
在文本到图像生成的研究与应用中,该数据集提供了灵活多样的使用途径。研究者可直接下载不同规格的图像与文本对压缩包,如预处理的800像素版本或三阶段裁剪版本,用于模型训练与评估。对于需要原始元数据的高级应用,数据集支持通过Waifuc工具库进行加载,利用提供的Python脚本可便捷地提取图像及其关联的标签信息,实现数据流的程序化集成。此外,公开的标签聚类表格为分析角色视觉模式的分布、挖掘潜在风格子集或构建条件生成模型的提示词提供了直观的参考依据,助力于可控图像合成技术的探索。
背景与挑战
背景概述
在动漫角色图像生成领域,特定角色的高质量视觉数据对于训练生成模型至关重要。CyberHarem/koakuma_touhou数据集由DeepGHS团队构建,专注于东方Project中的角色“小悪魔”(koakuma),收录了500张图像及其标签。该数据集旨在为文本到图像生成任务提供精细化的角色视觉特征数据,通过从Danbooru、Pixiv等平台自动化爬取图像,并经过裁剪与标签处理,支持角色一致性生成的研究与应用。其构建体现了对二次元角色数据系统化整理的学术探索,为动漫风格图像生成模型的训练提供了专项资源。
当前挑战
该数据集致力于解决动漫角色图像生成中角色特征一致性与多样性的平衡问题,挑战在于如何从海量同人作品中提取稳定且具有区分度的视觉特征,同时避免标签噪声对模型训练的干扰。在构建过程中,面临多源图像质量参差不齐、版权与内容合规性审查,以及自动化爬取系统对异构网站结构的适应性等难题。此外,数据预处理需在保留角色核心属性(如翅膀、发色)与剔除冗余标签之间取得精确权衡,这对数据清洗与标注策略提出了较高要求。
常用场景
经典使用场景
在动漫角色生成领域,该数据集聚焦于东方Project中的小恶魔角色,提供了500张带有精细标签的图像资源。这些图像经过多平台采集与预处理,形成了不同分辨率与裁剪版本的标准化集合。经典使用场景集中于训练文本到图像的生成模型,特别是针对特定动漫角色的风格化再现。研究者可利用其标注信息探索角色特征与视觉表现之间的映射关系,为二次元艺术创作提供数据支撑。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在动漫风格迁移与角色专属生成模型构建。例如基于标签条件的生成对抗网络能够实现对小恶魔角色多姿态、多服饰的精确生成。部分研究利用其聚类结果开发了角色属性解耦算法,实现了发型、服饰等要素的模块化控制。此外,该数据集常被纳入跨角色风格对比研究的基准测试集,为评估生成模型的角色一致性提供了重要参照。
数据集最近研究
最新研究方向
在动漫风格图像生成领域,该数据集聚焦于特定角色“小悪魔”的视觉特征建模,为个性化角色生成提供了精细化的训练素材。随着生成对抗网络与扩散模型在二次元艺术创作中的广泛应用,此类标注详尽的角色数据集正推动着可控图像合成技术的发展,尤其在属性绑定与风格一致性方面展现出潜力。其多尺寸与裁剪版本的设计,适应了不同分辨率下的模型训练需求,而标签聚类分析则为角色服饰与姿态的语义解耦提供了数据基础,进而支撑了角色定制化生成的前沿探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作