five

CyberHarem/suzumiya_seika_idolmastercinderellagirls

收藏
Hugging Face2024-01-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/suzumiya_seika_idolmastercinderellagirls
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个关于涼宮星花(THE iDOLM@STER: Cinderella Girls)的数据集,包含33张图像及其标签。该角色的核心标签包括`long_hair, black_hair, purple_eyes, breasts`,这些标签在数据集中已被修剪。图像从多个网站(如danbooru、pixiv、zerochan等)爬取,自动爬取系统由DeepGHS团队提供支持。数据集提供了多种下载选项,包括原始数据、不同尺寸的图像数据集以及三阶段裁剪的数据集。此外,还提供了如何使用Waifuc加载原始数据集的代码示例,并列出了标签聚类结果的表格。

This is a dataset focused on Suzumiya Hoshimi (THE iDOLM@STER: Cinderella Girls), which contains 33 images and their corresponding labels. The core tags for this character include `long_hair, black_hair, purple_eyes, breasts`, and these tags have been pruned in the dataset. The images were crawled from multiple websites such as danbooru, pixiv, zerochan, etc., and the automatic crawling system is powered by the DeepGHS team. The dataset offers various download options, including raw data, image datasets of different sizes, and a three-stage cropped dataset. Additionally, code examples on how to use Waifuc to load the raw dataset are provided, along with a table listing the tag clustering results.
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集信息

  • 名称: suzumiya_seika/涼宮星花 (THE iDOLM@STER: Cinderella Girls)
  • 描述: 包含33张图片及其标签的数据集。
  • 核心标签: long_hair, black_hair, purple_eyes, breasts
  • 来源: 从多个网站(如danbooru, pixiv, zerochan等)爬取。
  • 许可证: MIT
  • 任务类别: text-to-image
  • 标签: art, not-for-all-audiences
  • 大小类别: n<1K

数据集包列表

名称 图片数量 大小 类型 描述
raw 33 27.55 MiB Waifuc-Raw 包含元信息的原始数据(如果较大,最小边对齐到1400)。
800 33 22.99 MiB IMG+TXT 短边不超过800像素的数据集。
stage3-p480-800 68 39.50 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。
1200 33 26.84 MiB IMG+TXT 短边不超过1200像素的数据集。
stage3-p480-1200 68 45.51 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。

数据集加载

使用Waifuc加载原始数据集

python import os import zipfile

from huggingface_hub import hf_hub_download from waifuc.source import LocalSource

下载原始归档文件

zip_file = hf_hub_download( repo_id=CyberHarem/suzumiya_seika_idolmastercinderellagirls, repo_type=dataset, filename=dataset-raw.zip, )

提取文件到指定目录

dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)

使用waifuc加载数据集

source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])

标签聚类结果

原始文本版本

# 样本数量 Img-1 Img-2 Img-3 Img-4 Img-5 标签
0 7 1girl, smile, solo, card_(medium), character_name, flower_(symbol), open_mouth, pink_background, jewelry, navel

表格版本

# 样本数量 Img-1 Img-2 Img-3 Img-4 Img-5 1girl smile solo card_(medium) character_name flower_(symbol) open_mouth pink_background jewelry navel
0 7 X X X X X X X X X X
搜集汇总
数据集介绍
main_image_url
构建方式
在二次元角色数据集构建领域,针对《偶像大师 灰姑娘女孩》中的涼宮星花这一角色,本数据集通过自动化爬取技术从Danbooru、Pixiv、Zerochan等多个图像平台采集了33张原始图像,并辅以相应的标签信息。该爬取系统由DeepGHS团队开发,确保了数据来源的广泛性与高效性。数据集在构建过程中,对核心标签如长发、黑发、紫瞳及胸部等进行了精简处理,以突出角色特征。此外,还提供了多种预处理版本,包括原始数据、限制短边不超过800或1200像素的缩放版本,以及基于三阶段裁剪策略且面积不低于480x480像素的增强版本,以满足不同训练需求。
特点
该数据集的核心特色在于其精细的标签聚类分析与多版本数据组织。通过标签聚类技术,数据集将33张图像划分为多个簇,例如包含7张样本的簇展示了角色微笑、单人、花朵符号等共同标签,便于研究者挖掘角色在不同场景下的视觉模式。每个簇均提供图像样本与标签分布,支持从宏观到微观的角色特征理解。此外,数据集提供五种不同规格的压缩包,包括原始元数据版本、两种分辨率限制的简单缩放版本,以及两种三阶段裁剪版本,后者通过区域裁剪增加了图像数量至68张,为文本到图像生成任务提供了更丰富的训练素材。
使用方法
本数据集的使用方法灵活多样,支持通过Waifuc库加载原始数据集。用户首先需从HuggingFace Hub下载dataset-raw.zip档案,解压至指定目录后,即可利用LocalSource类加载图像与元数据,其中包含文件名和标签信息,便于进行图像生成模型的训练或评估。对于偏好特定分辨率的用户,可直接下载800、1200或三阶段裁剪版本的压缩包,这些包内包含图像与对应的TXT标签文件,简化了数据预处理流程。通过这种模块化设计,研究者能根据计算资源与任务需求,快速选用合适的子集,提升开发效率。
背景与挑战
背景概述
该数据集由DeepGHS团队于近期创建,专注于《偶像大师:灰姑娘女孩》中的角色涼宮星花(suzumiya_seika),旨在为文本到图像生成任务提供高质量的动漫风格图像资源。核心研究问题在于如何通过自动爬取与标注技术,构建一个包含33张图像及其对应标签的小规模专用数据集,以支持角色特定特征的生成与识别。该数据集的影响力体现在其作为开源资源,为动漫图像生成领域的研究者提供了便捷的数据基础,尤其适用于角色定制化生成模型的训练与评估。
当前挑战
数据集面临的主要挑战包括:首先,在领域问题层面,文本到图像生成任务需解决如何从有限样本(33张图像)中准确捕捉角色核心标签(如长发、黑发、紫眼)的视觉特征,并避免过拟合或生成多样性不足的问题。其次,构建过程中遇到的挑战涉及多源爬取(如danbooru、pixiv)时图像质量与版权合规性的平衡,以及自动标注系统需处理标签不一致性(如不同来源对同一特征的描述差异)。此外,数据增强策略(如多尺度裁剪)虽增加了样本量(如68张),但可能引入背景噪声或构图偏差,增加了模型泛化的难度。
常用场景
经典使用场景
在动漫角色生成与风格迁移领域,CyberHarem/suzumiya_seika_idolmastercinderellagirls数据集为文本到图像(text-to-image)任务提供了高质量的细粒度训练素材。该数据集收录了33张关于《偶像大师:灰姑娘女孩》中角色涼宮星花的图像及其对应的标签信息,核心标签涵盖长发、黑发、紫瞳等显著特征。研究者可利用这些经过裁剪与尺寸规范化的图像,训练扩散模型或生成对抗网络,以精准复现角色外貌并探索风格化输出。其多分辨率版本(如800像素与1200像素)及三级裁剪策略,进一步支持了在不同尺度下对角色细节的捕捉与生成,成为动漫角色个性化生成研究的理想基准。
实际应用
在实际应用中,该数据集广泛服务于虚拟偶像内容创作与二次元文化产品的自动化生产。基于其训练的生成模型可被集成至辅助设计工具中,帮助画师快速生成角色立绘、表情包或同人插画,大幅缩短创意迭代周期。例如,利用其提供的多阶段裁剪数据集,开发者能构建移动端实时角色生成应用,支持用户通过文本提示定制角色形象。此外,该数据集还可用于游戏角色概念设计、虚拟主播形象定制及动漫风格滤镜开发,为娱乐产业提供从原型到成品的全链路技术支撑,推动数字内容生产的智能化与规模化。
衍生相关工作
该数据集衍生了一系列基于动漫角色生成的开创性工作。其中,DeepGHS团队开发的Waifuc框架利用此数据集验证了自动爬取与标签清洗管线的有效性,为大规模角色数据集构建提供了可复现范本。在模型层面,研究者基于此数据集微调了Stable Diffusion等预训练模型,提出了角色保持微调(Character LoRA)与标签注意力增强方法,显著提升了特定角色在多样化场景下的生成保真度。此外,数据集中的聚类信息被用于训练角色属性解耦模型,实现了对发型、服饰等细粒度特征的独立控制,这些工作共同推动了动漫图像生成领域从通用生成向角色专属生成的范式演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作