CyberHarem/inubashiri_momiji_touhou
收藏Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/inubashiri_momiji_touhou
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为inubashiri_momiji/犬走椛/이누바시리모미지 (Touhou)的数据集,包含500张图片及其标签。图片从多个网站(如danbooru, pixiv, zerochan等)爬取,并由DeepGHS团队提供技术支持。数据集的核心标签包括动物耳朵、狼耳朵、短发、红眼睛、帽子、tokin帽子、白发、尾巴、狼尾巴、胸部等。
This is a dataset named inubashiri_momiji/犬走椛/이누바시리모미지 (Touhou) that contains 500 images paired with their respective labels. The images were crawled from multiple online platforms including danbooru, pixiv, zerochan and other similar websites, with technical support provided by the DeepGHS team. The core tags of this dataset include animal ears, wolf ears, short hair, red eyes, hats, tokin hats, white hair, tails, wolf tails, chests and other related tags.
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集基本信息
- 名称: inubashiri_momiji/犬走椛/이누바시리모미지 (Touhou)
- 许可证: MIT
- 任务类别: text-to-image
- 标签: art, not-for-all-audiences
- 数据量: n<1K
- 描述: 包含500张图片及其标签,核心标签包括
animal_ears, wolf_ears, short_hair, red_eyes, hat, tokin_hat, white_hair, tail, wolf_tail, breasts。
数据集包列表
| 名称 | 图片数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 500 | 602.05 MiB | Waifuc-Raw | 原始数据,包含元信息(最小边对齐到1400像素,如果更大)。 |
| 800 | 500 | 378.86 MiB | IMG+TXT | 短边不超过800像素的数据集。 |
| stage3-p480-800 | 1193 | 772.36 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
| 1200 | 500 | 549.16 MiB | IMG+TXT | 短边不超过1200像素的数据集。 |
| stage3-p480-1200 | 1193 | 1.00 GiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
数据集加载
-
工具: waifuc
-
代码示例: python import os import zipfile from huggingface_hub import hf_hub_download from waifuc.source import LocalSource
下载原始归档文件
zip_file = hf_hub_download( repo_id=CyberHarem/inubashiri_momiji_touhou, repo_type=dataset, filename=dataset-raw.zip, )
解压文件到指定目录
dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)
使用waifuc加载数据集
source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])
标签聚类结果
原始文本版本
| # | 样本数量 | 图片示例 | 标签 |
|---|---|---|---|
| 0 | 10 | ![]() |
1girl, blush, detached_sleeves, grey_hair, looking_at_viewer, obi, solo, bridal_gauntlets, japanese_clothes, kourindou_tengu_costume, smile, wide_sleeves, long_sleeves, sitting, skirt |
| 1 | 9 | ![]() |
1girl, maple_leaf, solo, sword, detached_sleeves, pom_pom_(clothes), skirt, looking_at_viewer, autumn_leaves, shield, wide_sleeves, sarashi |
| 2 | 7 | ![]() |
1girl, bangs, bare_shoulders, detached_sleeves, looking_at_viewer, pom_pom_(clothes), red_headwear, solo, white_shirt, animal_ear_fluff, autumn_leaves, black_skirt, blush, closed_mouth, maple_leaf, wide_sleeves, large_breasts, ribbon-trimmed_sleeves, sleeveless_shirt, hair_between_eyes, navel, smile, turtleneck |
| 3 | 24 | ![]() |
1girl, solo, bare_shoulders, detached_sleeves, looking_at_viewer, blush, pom_pom_(clothes), smile, large_breasts, open_mouth, skirt |
| 4 | 8 | ![]() |
1girl, detached_sleeves, solo, sword, water, maple_leaf, red_scarf, skirt |
| 5 | 7 | ![]() |
1girl, detached_sleeves, solo, skirt, midriff, navel, sword, bare_shoulders, looking_at_viewer, maple_leaf, medium_breasts, scarf, shield |
| 6 | 5 | ![]() |
1girl, blush, cleavage, large_breasts, looking_at_viewer, solo, navel, smile, collarbone, covered_nipples, day, lens_flare, micro_bikini, open_mouth, red_bikini, side-tie_bikini_bottom, sky |
搜集汇总
数据集介绍

构建方式
在动漫角色图像数据集的构建领域,CyberHarem/inubashiri_momiji_touhou数据集聚焦于东方Project中的角色犬走椛。该数据集的构建采用了自动化网络爬虫技术,从Danbooru、Pixiv、Zerochan等多个知名动漫艺术平台系统性地采集原始图像。通过DeepGHS团队开发的智能抓取系统,初始收集的500张图像经过元数据标注与核心标签修剪处理,确保数据质量与一致性。最终形成的多版本数据集涵盖了从原始分辨率到不同尺寸规格的裁剪版本,为文本到图像生成任务提供了结构化的视觉素材基础。
特点
该数据集在动漫角色图像数据中展现出鲜明的专项化特征,专注于单一角色犬走椛的多维度视觉呈现。其核心优势在于提供了经过精细标注的元数据体系,每张图像均附有修剪后的特征标签,如动物耳朵、红色眼睛、白色头发等角色标志性属性。数据集采用多分辨率版本并行发布的策略,包含原始尺寸、短边限制为800/1200像素的标准版本,以及经过三阶段裁剪处理的增强版本,满足不同计算环境下的使用需求。特别提供的聚类分析结果进一步揭示了角色在不同服饰与场景下的视觉模式分布,为风格化生成研究提供了宝贵的参考维度。
使用方法
在文本到图像生成模型的训练与应用场景中,该数据集提供了灵活多样的加载方式。研究者可通过Hugging Face Hub直接下载预处理的IMG+TXT格式压缩包,其中图像与文本标签已建立精确对应关系。对于需要完整元数据的研究需求,数据集特别支持通过Waifuc工具链加载原始数据包,该方式可保留图像的所有标签信息与处理历史。实际使用时,用户可根据计算资源选择适当分辨率版本,或利用三阶段裁剪版本进行数据增强。数据集提供的聚类分析表格可作为提示词工程的重要参考,帮助构建更具针对性的文本描述模板。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的背景下,针对特定动漫角色的高质量图像数据集成为训练文本到图像模型的关键资源。CyberHarem/inubashiri_momiji_touhou数据集由DeepGHS团队构建,专注于东方Project系列中的角色“犬走椛”。该数据集收录了500张图像及其标注标签,旨在为角色一致性图像生成提供精准的训练样本。其核心价值在于通过自动化爬虫系统整合多平台来源,如Danbooru、Pixiv等,并经过细致的标签修剪与多尺度预处理,为动漫风格图像合成领域的研究与应用奠定了数据基础。
当前挑战
该数据集致力于解决动漫角色图像生成中角色特征一致性与多样性的平衡问题,其挑战在于如何从海量网络图像中精准筛选并标注特定角色的多姿态、多服饰变体,同时避免标签噪声与内容偏差。在构建过程中,面临的主要挑战包括:跨平台图像爬取时遇到的版权与内容合规性风险;自动化标注系统对复杂角色属性(如服饰细节、场景元素)的识别精度不足;以及为适配不同模型训练需求,进行图像裁剪与分辨率标准化时所引发的信息损失与质量权衡。
常用场景
经典使用场景
在动漫风格图像生成领域,该数据集聚焦于东方Project角色犬走椛的视觉呈现,为文本到图像生成模型提供了高质量的标注图像资源。其经典使用场景在于训练或微调生成对抗网络(GAN)及扩散模型,以学习特定动漫角色的风格化特征,如兽耳、服饰细节与色彩搭配。通过精确的标签体系,模型能够捕捉角色核心属性,实现从文本描述到视觉内容的精准映射,服务于动漫艺术创作与个性化内容生成。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在动漫风格生成模型的优化与扩展。例如,基于标签驱动的分层生成架构能够细化角色属性控制;结合该数据集的跨角色融合研究探索了多源特征组合的创作潜力。此外,在数据增强领域,利用此类数据集进行对抗训练提升了生成图像的纹理真实性与细节丰富度。这些工作不仅推动了动漫生成技术的进步,也为二次元文化内容的自动化生产提供了可复现的算法范例。
数据集最近研究
最新研究方向
在动漫风格图像生成领域,基于特定角色的数据集如犬走椛正推动着个性化内容生成的前沿探索。该数据集通过精细的标签聚类与多尺度图像处理,为角色一致性生成与风格迁移研究提供了结构化资源。当前研究热点聚焦于利用此类标注数据训练扩散模型,以提升二次元角色在多样化姿态与服饰下的生成保真度,同时探索跨域风格融合技术,将传统东方Project元素与现代艺术表达相结合。这些进展不仅丰富了数字艺术创作的工具集,也为角色IP的衍生内容自动化生产奠定了技术基础,在游戏、动漫产业及虚拟偶像领域展现出广泛的应用潜力。
以上内容由遇见数据集搜集并总结生成










