CyberHarem/tsuchiya_ako_idolmastercinderellagirls
收藏Hugging Face2024-01-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/tsuchiya_ako_idolmastercinderellagirls
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为tsuchiya_ako/土屋亜子 (THE iDOLM@STER: Cinderella Girls)的数据集,包含57张图片及其标签。这些图片从多个网站(如danbooru, pixiv, zerochan等)爬取,并由DeepGHS团队提供技术支持。数据集的核心标签包括brown_hair, glasses, short_hair, hair_ornament, green_eyes, ahoge, hairclip, mole, mole_under_mouth, breasts。此外,README还提供了不同格式和尺寸的数据包下载链接,以及如何使用waifuc工具加载原始数据集的代码示例。最后,文件还列出了标签聚类结果,可能用于挖掘一些服装信息。
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集信息
- 名称: tsuchiya_ako/土屋亜子 (THE iDOLM@STER: Cinderella Girls)
- 包含内容: 57张图片及其标签
- 核心标签: brown_hair, glasses, short_hair, hair_ornament, green_eyes, ahoge, hairclip, mole, mole_under_mouth, breasts
- 来源: 从多个网站爬取,如danbooru, pixiv, zerochan等
数据集包列表
| 名称 | 图片数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 57 | 49.67 MiB | Waifuc-Raw | 包含元信息的原始数据(最小边对齐到1400像素,如果更大) |
| 800 | 57 | 38.19 MiB | IMG+TXT | 短边不超过800像素的数据集 |
| stage3-p480-800 | 114 | 69.17 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
| 1200 | 57 | 46.56 MiB | IMG+TXT | 短边不超过1200像素的数据集 |
| stage3-p480-1200 | 114 | 82.96 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素 |
标签聚类结果
原始文本版本
| # | 样本数量 | 图片1 | 图片2 | 图片3 | 图片4 | 图片5 | 标签 |
|---|---|---|---|---|---|---|---|
| 0 | 11 | ![]() |
![]() |
![]() |
![]() |
![]() |
1girl, solo, midriff, navel, skirt, thighhighs, brown-framed_eyewear, open_mouth, :d, belt, card_(medium), character_name, orange_background, sun_symbol |
表格版本
| # | 样本数量 | 图片1 | 图片2 | 图片3 | 图片4 | 图片5 | 1girl | solo | midriff | navel | skirt | thighhighs | brown-framed_eyewear | open_mouth | :d | belt | card_(medium) | character_name | orange_background | sun_symbol |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 11 | ![]() |
![]() |
![]() |
![]() |
![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X |
搜集汇总
数据集介绍

构建方式
在二次元角色图像数据集的构建中,针对《偶像大师:灰姑娘女孩》中的角色土屋亚子,本项目精心采集了57张高质量图像及其关联标签。数据来源涵盖Danbooru、Pixiv、Zerochan等多个知名插画社区,依托DeepGHS团队开发的自动化爬取系统完成图像收集。原始数据经过精细化处理,保留了棕色头发、眼镜、短发、发饰、绿色眼睛、呆毛、发夹、痣、嘴角痣、胸部等核心标签,并进行了必要的标签修剪。数据集以多种格式提供,包括原始元数据包、短边不超过800像素的标准化版本、以及经过三阶段裁剪且面积不低于480×480像素的增强版本,充分满足不同训练场景的需求。
特点
该数据集的核心特色在于其多版本、多粒度的组织架构。除了包含原始分辨率的完整元数据外,还提供了短边限制在800像素和1200像素的两种缩放版本,便于快速加载与训练。尤为突出的是三阶段裁剪版本,通过智能裁剪策略将单张图像扩展为多个子图,使数据总量翻倍至114张,同时确保每个裁剪区域包含足够的信息量。数据集还附带了标签聚类结果,将11张样本归为一组,揭示了角色常见的服饰组合如露脐装、短裙、过膝袜与棕色边框眼镜的搭配模式,为风格迁移和服装生成研究提供了结构化参考。
使用方法
使用者可通过Hugging Face Hub直接下载各版本压缩包。推荐采用Waifuc框架加载原始数据集,首先使用huggingface_hub库下载dataset-raw.zip文件,解压至本地目录后,通过LocalSource接口即可便捷地遍历图像、文件名及标签信息。对于标准化版本(如800或1200像素),解压后可直接获得图像与对应文本标签文件,适用于常见的文本到图像生成模型的训练。三阶段裁剪版本则特别适合需要更多训练样本或关注局部细节的任务。整个数据集采用MIT许可证开放,便于学术研究与个人项目使用。
背景与挑战
背景概述
在生成式人工智能与数字娱乐交汇的浪潮中,高质量、细粒度的动漫角色数据集成为驱动文本到图像生成模型发展的关键基石。由DeepGHS团队于近期构建的CyberHarem/tsuchiya_ako_idolmastercinderellagirls数据集,聚焦于《偶像大师灰姑娘女孩》中的角色土屋亚子,汇集了57张源自Danbooru、Pixiv、Zerochan等多平台的图像及其标签。该数据集的核心使命在于为角色定制化生成提供精准的视觉与语义锚点,通过标注棕色头发、眼镜、短发、发饰、绿色眼睛、呆毛、发夹、嘴角痣、胸部等核心特征,旨在推动动漫角色在特定风格与细节下的可控生成研究,对虚拟偶像内容创作与个性化模型微调领域具有重要的参考价值。
当前挑战
该数据集所面临的挑战首先体现在领域问题的复杂性上:动漫角色生成不仅要求模型准确还原人物外貌特征(如发型、眼镜、痣的位置),还需在多样化场景与服饰中保持角色身份的一致性,这对文本到图像模型的细粒度语义理解与空间布局能力提出了极高要求。其次,在构建过程中,数据集仅含57张样本,规模极为有限,极易导致模型过拟合或生成多样性不足;同时,图像来源多平台且风格迥异,需经过自动爬取、边缘对齐、多阶段裁剪等复杂预处理流程,确保图像质量与标签一致性,但原始数据中存在的噪声与标签稀疏性仍为后续训练带来了显著挑战。
常用场景
经典使用场景
在二次元角色生成与风格迁移的学术探索中,CyberHarem/tsuchiya_ako_idolmastercinderellagirls数据集以其对《偶像大师灰姑娘女孩》中土屋亚子这一角色的精细捕捉而独具价值。该数据集汇集了57张高质量图像,并配以结构化标签,核心标注了棕色长发、眼镜、呆毛等视觉特征,为基于文本到图像生成模型的精准角色再现提供了理想的训练素材。研究者常利用此数据集微调Stable Diffusion等扩散模型,以实现对特定二次元角色外貌与风格的高度还原,从而推动个性化角色生成领域的发展。
解决学术问题
该数据集有效解决了二次元角色生成领域中的概念混淆与特征泛化难题。传统生成模型在输出特定角色时,常因训练数据不足或标签模糊而出现特征混杂,例如将不同角色的发型或配饰错误组合。通过提供土屋亚子的高纯度、强标签化样本,该数据集使模型能够学习到该角色独有的视觉模式,显著提升了生成图像的准确性与一致性。这为研究少样本学习、概念解耦以及角色专属生成模型提供了坚实的数据基础,推动了学术社区对可控图像生成技术的深入理解。
衍生相关工作
该数据集的发布催生了一系列值得关注的研究与实践工作。在技术层面,它启发了针对二次元角色的数据高效微调方法,如基于DreamBooth的个性化生成与LoRA低秩适配技术的优化,这些工作探索了如何利用少量样本实现稳定且高质量的角色生成。在应用层面,该数据集被整合进像Waifuc这样的自动数据采集与处理管线中,形成了从爬取到训练的一体化流程。此外,它也为角色聚类与标签分析研究提供了案例,例如通过聚类结果挖掘角色在不同插图中的常见服饰组合,从而辅助风格分析。
以上内容由遇见数据集搜集并总结生成








