CyberHarem/suou_momoko_theidolmstermillionlive
收藏Hugging Face2024-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/suou_momoko_theidolmstermillionlive
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为suou_momoko/周防桃子 (THE iDOLM@STER: Million Live!),包含500张图片及其标签。图片来源于多个网站(如danbooru、pixiv、zerochan等),并通过自动爬取系统收集。数据集的核心标签包括blue_eyes, brown_hair, short_hair, bangs, ahoge, hair_ornament, hair_flower。此外,README还提供了数据集的下载链接、加载方法以及标签聚类结果的示例。
This dataset is named suou_momoko/Suou Momoko (THE iDOLM@STER: Million Live!), consisting of 500 images paired with their respective tags. The images were gathered via an automated crawling system from multiple online platforms including danbooru, pixiv, zerochan, and others. The core tags of this dataset include blue_eyes, brown_hair, short_hair, bangs, ahoge, hair_ornament, and hair_flower. Additionally, the accompanying README file provides the dataset's download links, loading procedures, and examples of tag clustering results.
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集信息
- 名称: suou_momoko/周防桃子 (THE iDOLM@STER: Million Live!)
- 内容: 包含500张图片及其标签
- 核心标签:
blue_eyes, brown_hair, short_hair, bangs, ahoge, hair_ornament, hair_flower - 来源: 从多个网站爬取,如danbooru, pixiv, zerochan等
数据集包列表
| 名称 | 图片数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 500 | 646.03 MiB | Waifuc-Raw | 包含元信息的原始数据(最小边对齐到1400像素,如果更大) |
| 800 | 500 | 358.04 MiB | IMG+TXT | 短边不超过800像素的图片数据集 |
| stage3-p480-800 | 1209 | 794.97 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
| 1200 | 500 | 569.26 MiB | IMG+TXT | 短边不超过1200像素的图片数据集 |
| stage3-p480-1200 | 1209 | 1.14 GiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
标签聚类结果
原始文本版本
| # | 样本数量 | 图片示例 | 标签 |
|---|---|---|---|
| 0 | 9 | ![]() |
1girl, blush, looking_at_viewer, solo, yellow_dress, floral_print, simple_background, white_background, long_sleeves, open_mouth, upper_body, short_sleeves, smile, v-shaped_eyebrows, white_flower |
| 1 | 9 | ![]() |
1girl, blush, flower, looking_at_viewer, solo, yellow_dress, simple_background, white_background, floral_print, upper_body, smile, collarbone, wavy_hair |
| 2 | 9 | ![]() |
1girl, blue_bow, bracelet, hair_bow, solo, blush, looking_at_viewer, open_mouth, puffy_short_sleeves, orange_bow, bowtie, sailor_collar, star_hair_ornament, white_dress, frilled_dress, :d, holding |
| 3 | 7 | ![]() |
1girl, blush, looking_at_viewer, puffy_short_sleeves, solo, wrist_cuffs, apron, blue_dress, short_twintails, :d, alice_(alice_in_wonderland)_(cosplay), blue_ribbon, open_mouth, frilled_dress, hair_ribbon, simple_background, blue_bowtie, card, hair_bow, heart, low_twintails, white_background |
| 4 | 10 | ![]() |
1girl, beret, blush, red_headwear, solo, white_shirt, pinafore_dress, long_sleeves, looking_at_viewer, bowtie, simple_background, upper_body, white_background, light_brown_hair, blunt_bangs, open_mouth, striped, wavy_hair |
| 5 | 7 | ![]() |
1girl, blush, looking_at_viewer, maid_headdress, pink_bowtie, puffy_short_sleeves, solo, wrist_cuffs, enmaided, frilled_apron, simple_background, white_apron, pink_dress, white_background, :o, frilled_sleeves, heart_hands, open_mouth, skirt, upper_body, waist_apron, white_shirt |
| 6 | 6 | ![]() |
1girl, black_gloves, blush, cat_ears, jingle_bell, mini_crown, solo, animal_ear_fluff, fur_trim, looking_at_viewer, puffy_short_sleeves, blue_bow, dress, epaulettes, neck_bell, open_mouth, :d, blurry, cat_tail, frilled_sleeves, gold_trim, holding, simple_background, striped_bowtie, upper_body |
| 7 | 6 | ![]() |
1girl, blush, looking_at_viewer, navel, solo, small_breasts, bow_bikini, simple_background, blue_bikini, sailor_bikini, smile, white_background, white_bikini |
| 8 | 15 | ![]() |
1boy, blush, hetero, 1girl, nipples, small_breasts, solo_focus, open_mouth, penis, loli, navel, spread_legs, vaginal, sweat, bar_censor, completely_nude, cum_in_pussy, flower, saliva, tears, sex_from_behind, straddling |
| 9 | 9 | ![]() |
1girl, solo, day, looking_at_viewer, outdoors, blue_sky, beach, cloud, blush, ocean, smile, barefoot, black_bikini, frilled_bikini, navel, open_mouth, small_breasts |
搜集汇总
数据集介绍

构建方式
该数据集聚焦于《偶像大师:百万现场!》中的角色周防桃子,通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个图像平台采集原始图像,共收录500张图片及其关联标签。数据采集由DeepGHS团队开发的自动化工具完成,确保了来源的多样性与效率。原始数据经过多阶段处理,提供了多种分辨率与裁剪方案的分包,包括原始元数据包、短边对齐至800或1200像素的标准化包,以及基于三阶段裁剪策略生成的最小区域不低于480×480像素的增强包,以满足不同训练需求。核心标签如蓝瞳、棕发、短发、刘海、呆毛等已在数据集中被精简处理。
特点
数据集以角色为中心,具备精细化的标签体系与多分辨率版本,兼顾了通用性与专业性。其独特之处在于提供了基于Waifuc框架加载的原始数据包,便于研究者直接利用元信息进行自定义处理。此外,数据集还包含了标签聚类结果,通过可视化样本与文本标签表格展示了不同服饰、场景与姿态的集群分布,例如黄色连衣裙、水手服、泳装等变体,为风格迁移或特定属性生成任务提供了结构化参考。数据量控制在1K以下,适合小规模微调或快速原型验证。
使用方法
使用者可通过HuggingFace Hub直接下载各分包,推荐使用Waifuc库加载原始数据包以获取完整的图像与标签元信息。具体流程包括使用`huggingface_hub`下载ZIP压缩包,解压至本地目录后,通过`LocalSource`迭代访问每个样本的图像、文件名及标签列表。对于标准化或裁剪后的分包,可直接解压后用于训练文本到图像模型,如Stable Diffusion的微调。标签聚类表可作为辅助数据探索的索引,帮助用户快速定位特定风格的图像子集,提升数据筛选效率。
背景与挑战
背景概述
在文本到图像生成领域,高质量、细粒度的人物数据集对于训练能够精准还原特定角色特征的模型至关重要。CyberHarem/suou_momoko_theidolmstermillionlive数据集由DeepGHS团队于近期创建,聚焦于《偶像大师:百万现场!》中的角色周防桃子。该数据集包含500张经过精心标注的图像,核心标签涵盖蓝眼、棕发、短发、刘海、呆毛及发饰等关键视觉特征,旨在为动漫角色生成模型提供标准化的训练素材。其影响力体现在为角色定制化生成任务提供了基础数据支持,推动了动漫风格图像生成在特定IP角色上的精细化发展。
当前挑战
该数据集所解决的领域挑战在于动漫角色图像的细粒度生成,传统通用数据集难以捕捉特定角色的标志性外观与服饰细节,而本数据集通过核心标签的精确剪枝与多源爬取,提升了模型的角色还原能力。构建过程中的挑战则包括:数据来源的多样性(如danbooru、pixiv等平台)导致图像质量与风格参差不齐,需通过自动化系统进行统一过滤与对齐;标注标签的冗余与噪声问题,需要人工或算法剔除无关标签以突出核心特征;此外,数据集规模较小(仅500张图像),在保证角色一致性的同时,如何通过数据增强与裁剪策略(如三阶段裁剪)最大化利用有限样本,也是技术实现上的难点。
常用场景
经典使用场景
在动漫角色生成与风格迁移领域,该数据集作为周防桃子这一特定虚拟角色的高质量图像-标签配对资源,常被用于训练文本到图像生成模型,如Stable Diffusion的微调版本。研究者通过提取其包含的500张精心标注的图像,结合核心标签如蓝眼、棕发等,实现对该角色外观与服饰风格的精确复现,进而探索基于动漫IP的角色一致性与多样化生成任务。
实际应用
在实际应用中,该数据集赋能了二次元内容创作与数字娱乐产业,例如辅助游戏角色立绘的快速原型设计、虚拟偶像的个性化头像生成,以及同人创作中的角色风格定制。开发者可借助预训练模型在此数据集上的微调结果,实现自动化生成符合周防桃子核心视觉特征的图像,从而降低人工绘制的成本,提升内容生产与迭代的效率。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于聚类分析的服饰风格挖掘(如连衣裙、水手服等分组标签),以及多阶段裁剪策略(如stage3-p480-800)在图像预处理中的优化应用。此外,结合DeepGHS团队的自动化爬取与标注框架,该数据集启发了Waifuc工具链的构建,促进了大规模动漫角色数据集的高效管理,成为后续角色定制生成模型(如角色LoRA微调)的重要参考基准。
以上内容由遇见数据集搜集并总结生成













