CyberHarem/yukina_kiritani_imocho
收藏Hugging Face2024-03-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/yukina_kiritani_imocho
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Yukina Kiritani/桐谷雪那(来自《最近,我的妹妹有点怪》)的261张图片及其标签。核心标签包括`brown_hair, ponytail, long_hair, ribbon, hair_ribbon, red_eyes`,这些标签在数据集中被修剪。图片从多个网站(如danbooru、pixiv、zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集分为多个包,包括原始数据、1200像素限制的数据集和三阶段裁剪的数据集。此外,还提供了使用waifuc加载原始数据集的代码示例,并展示了标签聚类结果。
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集信息
- 名称: Dataset of Yukina Kiritani/桐谷雪那 (Recently, My Sister Is Unusual)
- 描述: 包含261张图片及其标签的数据集。
- 核心标签:
brown_hair, ponytail, long_hair, ribbon, hair_ribbon, red_eyes - 标签分类结果: 提供了详细的标签分类结果,可能有助于挖掘某些服装。
数据集包
| 名称 | 图片数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 261 | 167.43 MiB | Waifuc-Raw | 包含元信息的原始数据(最小边对齐到1400像素,如果更大)。 |
| 1200 | 261 | 167.35 MiB | IMG+TXT | 短边不超过1200像素的数据集。 |
| stage3-p480-1200 | 554 | 307.71 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
标签分类结果
原始文本版本
| # | 样本数量 | 图片示例 | 标签 |
|---|---|---|---|
| 0 | 5 | ![]() |
1girl, blazer, blue_skirt, indoors, pleated_skirt, school_uniform, window, red_ribbon, solo, classroom, school_desk, arms_behind_back, brown_eyes, standing |
| 1 | 6 | ![]() |
1girl, anime_coloring, profile, school_uniform, solo, necktie, upper_body, blazer, smile |
| 2 | 9 | ![]() |
1girl, portrait, solo, closed_mouth, anime_coloring, collared_shirt, pink_eyes, smile, looking_at_viewer |
| 3 | 11 | ![]() |
1girl, anime_coloring, looking_at_viewer, solo, kimono, closed_mouth, pink_eyes, parody, smile, upper_body |
| 4 | 5 | ![]() |
1girl, open_mouth, solo, sweater, turtleneck, anime_coloring, portrait, parody, pink_eyes, looking_at_viewer, profile, smile |
| 5 | 6 | ![]() |
1girl, green_scarf, jacket, solo, pink_eyes, anime_coloring |
| 6 | 5 | ![]() |
1girl, blazer, blue_skirt, long_sleeves, miniskirt, pleated_skirt, red_necktie, school_uniform, looking_at_viewer, red_ribbon, solo, white_shirt, smile, standing, very_long_hair, yellow_jacket, breasts, brown_eyes, closed_mouth, collared_shirt, indoors, school_bag |
| 7 | 5 | ![]() |
1girl, coat, jacket, solo, upper_body, open_mouth, turtleneck_sweater, :d, anime_coloring, blue_sweater, brown_eyes, looking_at_viewer, open_clothes, red_ribbon, window |
| 8 | 10 | ![]() |
1girl, apron, open_mouth, solo, bottle, turtleneck, :d, food, kitchen, looking_at_viewer, tray |
| 9 | 8 | ![]() |
1girl, indoors, school_uniform, blue_skirt, holding_cup, mug, solo, long_sleeves, pleated_skirt, red_ribbon, yellow_cardigan, couch, open_mouth, very_long_hair, white_shirt, brown_eyes, from_side, red_necktie, sitting, socks |
| 10 | 5 | ![]() |
1girl, belt, sweater, brown_eyes, solo, collared_shirt, long_sleeves, smile, green_shorts, looking_at_viewer, red_ribbon, shopping |
| 11 | 12 | ![]() |
blush, nude, 1girl, collarbone, mixed-sex_bathing, shared_bathing, 1boy, cleavage, short_hair, open_mouth, water, wet, black_hair, onsen, partially_submerged, hetero, large_breasts, medium_breasts, steam |
| 12 | 5 | ![]() |
1girl, bikini, cleavage, open_mouth, water, large_breasts, partially_submerged, solo, brown_eyes, medium_breasts, one-piece_swimsuit |
| 13 | 9 | ![]() |
bare_shoulders, cleavage, collarbone, santa_hat, 1girl, santa_costume, large_breasts, red_choker, crop_top, midriff, smile, solo, christmas_tree, off_shoulder |
搜集汇总
数据集介绍

构建方式
该数据集聚焦于动漫角色桐谷雪那(出自《最近,我的妹妹有点怪》),共收录261张图像及其对应标签。数据采集覆盖Danbooru、Pixiv、Zerochan等多个站点,依托DeepGHS团队开发的自动化爬取系统完成。核心特征标签如棕色头发、马尾辫、长发、丝带、红色眼睛等已在数据集中剔除。数据集提供三种打包形式:原始数据包(含元信息,边缘对齐至1400像素)、1200像素短边限制版以及三级裁剪版(面积不低于480×480像素,图像数量增至554张)。
特点
数据集结构清晰,支持多种使用场景。原始数据包兼容Waifuc框架,便于二次开发。除基础图像-标签配对外,还提供标签聚类结果,揭示角色在不同着装(如校服、和服、泳装、圣诞装)和场景(教室、厨房、温泉)下的视觉分布。聚类版本以图文表格呈现,每簇包含样本数量及代表性缩略图,便于挖掘角色特征与服饰组合。数据集采用MIT许可,适用于文本到图像生成任务。
使用方法
用户可通过Hugging Face Hub直接下载指定压缩包。原始数据集加载示例代码如下:使用huggingface_hub库下载dataset-raw.zip,解压至本地目录后,借助Waifuc的LocalSource接口读取图像及其标签元信息。对于1200及stage3版本,解压后可直接获取图像与文本配对文件,适用于训练或推理流程。所有操作均依赖Python环境,需提前安装相关依赖库。
背景与挑战
背景概述
在文本到图像生成领域,高质量、结构化的角色数据集是驱动模型精准描绘特定动漫角色的关键资源。由DeepGHS团队于近期构建的CyberHarem/yukina_kiritani_imocho数据集,聚焦于动画作品《最近,我的妹妹有点怪》中的角色桐谷雪那,收录了261张精心标注的图像。该数据集的核心研究问题在于如何通过多源爬取(覆盖danbooru、pixiv、zerochan等平台)与自动化标注流水线,为动漫角色提供兼具多样性与一致性的训练素材。其影响力体现在为LoRA微调等个性化生成任务奠定了数据基础,尤其通过标签聚类与多分辨率版本(如1200像素与480x480裁剪版)的设计,推动了角色外观与服饰风格的可控生成研究。
当前挑战
该数据集所解决的领域挑战在于动漫角色图像生成中的概念一致性难题:角色在不同画师笔下可能呈现发型、服饰或表情的显著变异,而数据集需通过核心标签(如棕发、马尾、红眼)的剪枝与聚类分析,提炼出角色不变的特征表征。构建过程中遭遇的挑战包括:1)多源数据爬取时需应对版权异构与图像质量参差,因此采用min edge对齐至1400像素的预处理策略;2)标签自动标注系统需克服动漫术语的歧义性(如“ribbon”与“hair_ribbon”的层级关系),并通过Waifuc框架实现元信息与标签的标准化封装;3)数据规模(n<1K)对模型泛化能力构成限制,需通过3-stage裁剪与多分辨率打包(如stage3-p480-1200)来增强样本利用率,同时避免过拟合于特定构图模式。
常用场景
经典使用场景
在动漫角色生成与个性化图像合成领域,CyberHarem/yukina_kiritani_imocho 数据集常被用于训练文本到图像(Text-to-Image)模型,以精准再现桐谷雪那这一特定角色的视觉特征。该数据集包含261张经过标签清洗的高质量图像,核心标签如棕发、马尾辫、红眼等被精心保留,为模型提供了稳定的风格锚点。研究者通常利用其多分辨率版本(如1200像素裁剪版)进行微调,使扩散模型或GAN网络能够生成符合角色设定、姿态多变的逼真肖像,从而在二次元内容创作中实现角色一致性控制。
衍生相关工作
基于该数据集,社区衍生出多项代表性工作。例如,DeepGHS团队利用其原始数据构建了自动化标签清洗与图像裁剪流水线,并开源了多阶段训练策略(如stage3-p480-1200版本),为后续角色数据集构建提供了标准化范式。此外,研究者借鉴其聚类标签结果,提出了面向动漫角色的属性解耦网络,能够分离发色、服装等细粒度特征。该数据集还被用作NovelAI等商业模型的对比测试基准,用以评估角色特定概念在扩散模型中的遗忘与保持效果。
数据集最近研究
最新研究方向
在动漫角色数据集的构建与应用领域,针对《最近,妹妹的样子有点怪?》中桐谷雪那角色所建立的精细化图像-标签数据集,正推动着文本到图像生成模型在二次元人物还原上的前沿探索。该数据集通过多源爬取与自动标注技术,整合了261张涵盖校园、日常、泳装、和服等多元场景的高质量图像,并提供了从原始数据到三阶段裁剪的多种规格,为研究人员在细粒度角色特征学习、风格迁移以及可控生成等方向提供了坚实的数据基础。当前研究热点聚焦于借助此类高一致性的人物数据集,结合扩散模型与LoRA等轻量化微调技术,实现特定角色在不同着装、姿态与背景下的精准生成与风格保持,进而推动虚拟偶像、个性化内容创作以及动漫IP衍生领域的智能化发展,其影响在于降低了高质量动漫角色定制化生成的门槛,并促进了二次元内容生产从手工绘制向AI辅助创作的范式迁移。
以上内容由遇见数据集搜集并总结生成

















