five

CyberHarem/takasaki_yuu_lovelivenijigasakihighschoolidolclub

收藏
Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/takasaki_yuu_lovelivenijigasakihighschoolidolclub
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为takasaki_yuu/高咲侑/타카사키유우 (Love Live! Nijigasaki Gakuen School Idol Doukoukai),包含500张图片及其标签。图片来源于多个网站(如danbooru, pixiv, zerochan等),并由DeepGHS团队开发的自动爬取系统收集。数据集的核心标签包括black_hair, green_hair, multicolored_hair, gradient_hair, bangs, two-tone_hair, twintails, medium_hair, green_eyes, hair_between_eyes, ribbon, neck_ribbon, breasts,这些标签在数据集中被修剪。README还提供了数据集的多个版本及其下载链接,以及如何使用waifuc加载原始数据集的代码示例。
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集名称

Dataset of takasaki_yuu/高咲侑/타카사키유우 (Love Live! Nijigasaki Gakuen School Idol Doukoukai)

数据集描述

该数据集包含500张图片及其标签,主题为takasaki_yuu/高咲侑/타카사키유우(Love Live! Nijigasaki Gakuen School Idol Doukoukai)。

核心标签

  • black_hair, green_hair, multicolored_hair, gradient_hair, bangs, two-tone_hair, twintails, medium_hair, green_eyes, hair_between_eyes, ribbon, neck_ribbon, breasts

数据集包列表

名称 图片数量 大小 类型 描述
raw 500 692.88 MiB Waifuc-Raw 原始数据,包含元信息(最小边对齐到1400像素,如果更大)。
800 500 333.72 MiB IMG+TXT 短边不超过800像素的数据集。
stage3-p480-800 1219 753.06 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。
1200 500 582.38 MiB IMG+TXT 短边不超过1200像素的数据集。
stage3-p480-1200 1219 1.17 GiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。

标签聚类结果

原始文本版本

# 样本数量 图片示例 标签
0 5 1girl, black_jacket, closed_mouth, collared_shirt, looking_at_viewer, nijigasaki_academy_school_uniform, red_ribbon, solo, upper_body, white_shirt, smile, white_background, winter_uniform, blazer, simple_background, blush, long_sleeves, two-tone_background
1 8 1girl, collared_shirt, looking_at_viewer, nijigasaki_academy_school_uniform, short_sleeves, solo, summer_uniform, upper_body, white_shirt, blush, closed_mouth, dress_shirt, pink_ribbon, white_background, hand_up, simple_background, smile, twitter_username
2 22 1girl, collared_shirt, nijigasaki_academy_school_uniform, plaid_skirt, short_sleeves, solo, summer_uniform, looking_at_viewer, pleated_skirt, blue_skirt, closed_mouth, white_background, white_shirt, simple_background, black_thighhighs, pink_ribbon, smile, zettai_ryouiki, blush, dress_shirt, cowboy_shot
3 13 1girl, collared_shirt, long_sleeves, nijigasaki_academy_school_uniform, plaid_skirt, pleated_skirt, red_ribbon, solo, white_shirt, white_skirt, black_jacket, black_thighhighs, blazer, looking_at_viewer, smile, simple_background, white_background, zettai_ryouiki, blush, winter_uniform, open_jacket, sweater_vest, closed_mouth, miniskirt, buttons, cowboy_shot
4 7 1girl, black_jacket, blazer, collared_shirt, long_sleeves, looking_at_viewer, nijigasaki_academy_school_uniform, plaid_skirt, pleated_skirt, red_ribbon, solo, white_shirt, open_mouth, rainbow, white_skirt, black_thighhighs, blue_sky, winter_uniform, cloud, sweater_vest, :d, open_jacket, upper_teeth_only, zettai_ryouiki
5 6 1girl, black_jacket, black_necktie, collared_shirt, formal, looking_at_viewer, solo, suit, long_sleeves, white_shirt, black_pants, closed_mouth, simple_background, upper_body, white_background
6 5 2girls, blush, smile, yuri, open_mouth, shirt
7 6 1girl, blush, looking_at_viewer, simple_background, solo, white_background, bare_shoulders, collarbone, medium_breasts, open_mouth, black_bikini, cleavage, navel, large_breasts, smile
8 9 looking_at_viewer, 1girl, smile, solo, kimono, floral_print, obi, hair_flower, streaked_hair
搜集汇总
数据集介绍
main_image_url
构建方式
在动漫角色数据集构建领域,针对《Love Live! 虹咲学园学园偶像同好会》中的高咲侑(takasaki_yuu)角色,本数据集通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个图像托管站点采集原始图像,共计收录500张图片及其对应的标签信息。数据采集引擎由DeepGHS团队开发的Waifuc框架驱动,确保来源的多样性与覆盖面。构建过程中,对角色核心标签(如黑发、绿发、渐变发、双马尾、绿瞳、缎带等)进行了精简处理,以提升数据集的针对性与可用性。数据集提供多种预处理版本,包括原始元数据包(边缘对齐至1400像素)、短边不超过800或1200像素的缩放版本,以及基于三阶段裁剪策略生成、面积不低于480×480像素的增强版本,满足不同训练场景的需求。
特点
该数据集最显著的特色在于其多维度的预处理策略与精细化的标签体系。除原始图像外,提供了四种经过不同图像处理流程的压缩包,涵盖尺寸标准化与裁剪优化,尤其三阶段裁剪版本通过智能区域提取,将有效样本数从500扩展至1219,显著提升了数据的利用率与多样性。标签系统不仅包含角色固有属性(发色、发型、瞳色、装饰物),还通过聚类分析揭示了多种着装风格与场景模式,如虹咲学园制服(夏装与冬装)、西装便服、泳装、和服等,以及双人互动、单人特写等构图类别。这种结构化的标签聚类结果以可视化表格呈现,便于研究者快速识别数据分布,挖掘潜在的下游任务应用方向。
使用方法
本数据集的使用方式灵活多样,支持通过Hugging Face Hub直接下载各预处理版本。对于希望利用原始元数据的用户,推荐采用Waifuc框架加载:首先通过huggingface_hub库下载dataset-raw.zip压缩包,解压至本地目录后,使用LocalSource类实例化数据源,即可迭代访问每张图像及其元数据(包括文件名与标签列表),实现与现有训练管线的无缝集成。此外,可直接下载IMG+TXT格式的标准化版本(如800与1200系列),这些版本已对齐标签文本文件,适用于常见的文本到图像生成模型的微调任务。三阶段裁剪版本则特别适合需要高分辨率局部特征的场景,用户可根据计算资源与任务需求灵活选择对应数据包。
背景与挑战
背景概述
在二次元角色图像生成与风格迁移领域,高质量、标注精细的角色数据集是驱动文本到图像模型(如Stable Diffusion)性能提升的关键资源。CyberHarem团队于近期构建了高咲侑(Love Live! Nijigasaki Gakuen School Idol Doukoukai)专属数据集,该数据集由DeepGHS团队主导开发,依托自动爬取系统从Danbooru、Pixiv、Zerochan等多站点采集,最终收录500张经过严格筛选与标注的图像。数据集围绕角色核心标签(如双色渐变发、双马尾、绿色眼眸等)进行裁剪与整理,并提供多种分辨率版本及三级裁剪数据集,旨在为角色定制化生成、服饰聚类分析及多模态学习提供标准化训练素材。该数据集的出现,填补了该角色在开源社区中高质量结构化数据的空白,推动了Love Live!系列角色在AI艺术创作中的精细化研究。
当前挑战
该数据集面临的核心挑战在于领域问题的复杂性与构建过程的精细度。首先,在领域问题层面,数据集需支撑文本到图像生成任务,但二次元角色图像存在风格多样性(如官方画风与同人创作的差异)、标签语义模糊(如“微笑”与“张嘴”的边界)以及长尾分布(罕见服饰组合仅出现数次)等问题,导致模型难以泛化。其次,构建过程中遭遇多重困难:数据源多站点爬取面临版权合规与图像质量参差不齐的挑战,需手动清洗低分辨率或非目标角色图像;标签体系依赖自动提取与人工校验,但核心标签数量有限,且部分标签(如“彩虹”“云朵”)与角色特征关联性弱,可能引入噪声;此外,500张样本规模较小,难以覆盖角色全部姿态与场景,易引发过拟合,而三级裁剪策略虽提升了局部特征质量,却可能破坏全局构图一致性。
常用场景
经典使用场景
该数据集以《Love Live! 虹咲学园学园偶像同好会》中人气角色高咲侑为核心,精心收集了500张高质量图像及其详尽标签,涵盖校服、便装、泳装、和服等多种风格。其最经典的用途在于为文本到图像生成模型提供细粒度的角色定制训练数据,研究者可借助标签中的外观特征(如双色渐变发、绿色眼眸、缎带等)与场景描述,精准控制生成图像的角色身份与姿态,是二次元角色驱动生成领域的标杆性资源。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于Waifuc框架的自动化数据集加载流水线,以及通过标签聚类分析挖掘角色服饰组合(如冬季制服与夏季制服的区分)的研究。后续工作如多阶段裁剪预处理(stage3-p480-800)提升了训练数据的质量,而基于此数据集的角色微调模型(如LoRA与DreamBooth适配版)在社区中广泛传播,成为二次元生成模型领域复现与对比的基准,催生了更多关于角色身份保持与风格迁移的探索。
数据集最近研究
最新研究方向
在二次元角色图像生成与风格化领域,该数据集聚焦于《Love Live! 虹咲学园学园偶像同好会》中高咲侑这一角色的多模态表征学习。当前前沿研究方向主要围绕基于扩散模型的文本到图像生成技术,通过精细化标签系统(如发色、服装、姿态等)实现角色的一致性与多样性控制。数据集提供了多尺度裁剪版本(如stage3-p480-800)和聚类标签(如校服、泳装、和服等),为少样本学习、概念定制化生成以及角色身份保持等热点问题提供了高质量训练资源。其影响在于推动了虚拟偶像数据的标准化构建,并为跨数据集迁移学习与可控图像合成研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务