five

CyberHarem/sakurakouji_kinako_lovelivesuperstar

收藏
Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/sakurakouji_kinako_lovelivesuperstar
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个名为sakurakouji_kinako/桜小路きな코/사쿠라코지키나코 (Love Live! Superstar!!)的数据集,包含179张图片及其标签。图片来源于多个网站(如danbooru, pixiv, zerochan等),并由DeepGHS团队开发的自动爬取系统收集。数据集的核心标签包括bangs, brown_hair, long_hair, green_eyes, twintails, low_twintails, braid, blunt_bangs, ribbon, breasts,这些标签在数据集中已被修剪。README还提供了不同版本的下载链接,包括原始数据、不同分辨率的图片集以及经过裁剪的图片集。此外,还介绍了如何使用waifuc工具加载原始数据集,并提供了标签聚类结果的列表。
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集信息

  • 名称: sakurakouji_kinako/桜小路きな子/사쿠라코지키나코 (Love Live! Superstar!!)
  • 许可证: MIT
  • 任务类别: text-to-image
  • 标签: art, not-for-all-audiences
  • 大小类别: n<1K

数据集内容

  • 图像数量: 179
  • 核心标签: bangs, brown_hair, long_hair, green_eyes, twintails, low_twintails, braid, blunt_bangs, ribbon, breasts

数据包列表

名称 图像数量 大小 类型 描述
raw 179 238.88 MiB Waifuc-Raw 原始数据,包含元信息(最小边对齐到1400像素,如果更大)。
800 179 117.68 MiB IMG+TXT 短边不超过800像素的数据集。
stage3-p480-800 415 258.04 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。
1200 179 201.46 MiB IMG+TXT 短边不超过1200像素的数据集。
stage3-p480-1200 415 400.25 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。

标签聚类结果

原始文本版本

# 样本数量 图像示例 标签
0 13 1girl, blue_jacket, grey_dress, long_sleeves, looking_at_viewer, neck_ribbon, solo, yuigaoka_school_uniform, smile, black_pantyhose, open_mouth, red_ribbon, blush, pinafore_dress, brown_footwear, full_body, loafers, collared_shirt, white_background
1 7 1girl, blue_jacket, blush, grey_dress, long_sleeves, looking_at_viewer, open_jacket, solo, yuigaoka_school_uniform, neck_ribbon, pinafore_dress, red_ribbon, white_background, black_pantyhose, petals, smile, white_shirt, closed_mouth, collared_shirt, french_braid, hair_ribbon, simple_background, upper_body
2 7 1girl, beret, looking_at_viewer, solo, blue_headwear, short_sleeves, smile, birthday, dress, jacket, blush, collarbone, open_mouth, pink_gloves, white_background
3 11 1girl, solo, fingerless_gloves, looking_at_viewer, smile, white_gloves, sleeveless, blush, open_mouth, arm_up, armpits, bow, clothes_around_waist, skirt, confetti, medium_breasts, green_ribbon

表格版本

# 样本数量 图像示例 1girl blue_jacket grey_dress long_sleeves looking_at_viewer neck_ribbon solo yuigaoka_school_uniform smile black_pantyhose open_mouth red_ribbon blush pinafore_dress brown_footwear full_body loafers collared_shirt white_background open_jacket petals white_shirt closed_mouth french_braid hair_ribbon simple_background upper_body beret blue_headwear short_sleeves birthday dress jacket collarbone pink_gloves fingerless_gloves white_gloves sleeveless arm_up armpits bow clothes_around_waist skirt confetti medium_breasts green_ribbon
0 13 X X X X X X X X X X X X X X X X X X X
搜集汇总
数据集介绍
main_image_url
构建方式
在动漫角色数据集构建领域,针对《Love Live! Superstar!!》中的桜小路きな子角色,本数据集通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个图像平台采集了179张原始图像及其标签。爬取过程由DeepGHS团队开发的Waifuc系统驱动,确保数据来源的广泛性与多样性。原始图像经过最小边对齐至1400像素的预处理后,进一步衍生出多种规格的版本:包括短边不超过800像素和1200像素的缩放版本,以及基于三阶段裁剪策略生成的480x800和480x1200像素区域裁剪版本,从而满足不同训练场景的需求。
特点
该数据集的核心特色在于其精细化的标签体系与多版本结构。每个图像均附带丰富的标签,如角色核心特征(双马尾、棕色长发、绿色眼眸等)及场景描述(校服、微笑、背景等),并经过修剪以聚焦于角色本体。数据集提供原始Waifuc格式(含元信息)和IMG+TXT格式两种包,便于直接使用。此外,数据集还包含聚类分析结果,将图像按标签相似性分为4个簇,每个簇展示5个样本图像及其共享标签,如制服、生日服饰等,有助于挖掘角色不同装扮模式。
使用方法
数据集支持两种主要使用途径。其一,通过Waifuc库加载原始数据集:用户需从HuggingFace Hub下载dataset-raw.zip压缩包,解压后利用LocalSource类遍历图像及其元数据(包括文件名和标签)。其二,可直接下载IMG+TXT格式的打包文件(如800或1200版本),其中图像与对应标签文本文件配对,适用于常见的文本到图像生成模型训练。用户可根据计算资源与训练目标选择合适分辨率或裁剪版本,并通过聚类结果辅助数据筛选或风格分析。
背景与挑战
背景概述
在文本到图像生成领域,高质量、细粒度的角色数据集对于提升模型对特定虚拟角色外貌特征与风格的理解至关重要。由DeepGHS团队于近年创建的CyberHarem/sakurakouji_kinako_lovelivesuperstar数据集,聚焦于《Love Live! Superstar!!》中的角色桜小路きな子,汇集了179张来自Danbooru、Pixiv、Zerochan等多源平台的图像,并辅以精细的标签标注。该数据集不仅为动漫角色生成任务提供了标准化素材,还通过多分辨率裁剪与聚类分析(如校服、生日装等穿搭分组),推动了面向特定IP角色的可控图像生成研究,对二次元内容创作与个性化生成模型的发展具有重要参考价值。
当前挑战
该数据集面临的核心挑战首先在于领域问题的复杂性:动漫角色生成需精准还原角色核心标签(如发型、瞳色、服饰),然而多源图像风格差异大、背景干扰强,导致模型易出现特征混淆或过拟合。其次,构建过程中遭遇数据稀缺与标注一致性难题——仅179张原始图像难以覆盖角色全部姿态与场景,且自动爬取系统依赖的标签噪声(如缺失或冗余标签)需人工校验。此外,多分辨率裁剪方案虽适配不同生成需求,但裁剪后图像可能丢失关键构图元素,进一步加剧了模型对局部特征与全局关系平衡的挑战。
常用场景
经典使用场景
在动漫角色生成与风格迁移领域,CyberHarem/sakurakouji_kinako_lovelivesuperstar数据集常被用于训练文本到图像生成模型,如Stable Diffusion的微调版本。研究者利用该数据集中179张高分辨率、多姿态的桜小路きな子图像及其精细标注的标签,构建角色专属的概念嵌入,实现从文本描述到特定动漫角色肖像的精准生成。其经典使用方式包括基于LoRA或DreamBooth技术的个性化训练,通过少量样本学习捕捉角色核心视觉特征,如标志性的棕色双马尾、绿色眼眸与蝴蝶结发饰,从而在保持角色一致性的前提下生成多样化的场景与服饰变体。
实际应用
在实际应用中,此数据集支撑了二次元内容创作与虚拟偶像产业的自动化工具开发。创作者可利用训练后的模型快速生成桜小路きな子在不同设定(如校园制服、生日礼服、节日装扮)下的高质量插画,显著降低角色原画设计的人力成本。此外,该数据集还赋能了互动式角色定制平台,用户通过输入自然语言描述即可获得符合角色设定且风格统一的图像输出,广泛应用于同人创作、游戏角色概念设计以及虚拟主播的视觉素材批量生产。
衍生相关工作
该数据集衍生了一系列推动动漫图像生成发展的经典工作。基于其标注体系与多分辨率版本,研究者提出了针对动漫角色的精细化标签聚类方法,如通过标签共现分析挖掘角色服饰与场景的隐性关联。同时,它作为CyberHarem项目的重要组成部分,启发了大规模动漫角色数据集的构建范式,推动了如Waifuc自动化数据采集框架的迭代。后续工作还包括针对角色身份保持的跨模态对比学习研究,以及利用三级裁剪策略优化图像质量与生成稳定性,这些成果共同促进了动漫AIGC领域的标准化与可复现性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作