CyberHarem/kar98k_girlsfrontline
收藏Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/kar98k_girlsfrontline
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于kar98k/Kar98k/Kar98k(《少女前线》中的角色)的数据集,包含388张图像及其标签。该角色的核心标签包括`long_hair, red_eyes, white_hair, breasts, very_long_hair, bangs, hair_between_eyes, hat, peaked_cap, large_breasts, black_headwear`,这些标签在数据集中已被修剪。图像从多个网站(如danbooru、pixiv、zerochan等)爬取,自动爬取系统由DeepGHS团队提供。数据集提供了多个版本的下载链接,包括原始数据、不同分辨率的图像以及经过裁剪的图像。此外,还提供了如何使用waifuc加载原始数据集的代码示例,并列出了标签聚类结果,展示了不同聚类的样本图像和标签。
这是一个关于kar98k/Kar98k/Kar98k(《少女前线》中的角色)的数据集,包含388张图像及其标签。该角色的核心标签包括`long_hair, red_eyes, white_hair, breasts, very_long_hair, bangs, hair_between_eyes, hat, peaked_cap, large_breasts, black_headwear`,这些标签在数据集中已被修剪。图像从多个网站(如danbooru、pixiv、zerochan等)爬取,自动爬取系统由DeepGHS团队提供。数据集提供了多个版本的下载链接,包括原始数据、不同分辨率的图像以及经过裁剪的图像。此外,还提供了如何使用waifuc加载原始数据集的代码示例,并列出了标签聚类结果,展示了不同聚类的样本图像和标签。
提供机构:
CyberHarem
原始信息汇总
数据集概述:kar98k/Kar98k/Kar98k (Girls Frontline)
数据集基本信息
- 名称:kar98k/Kar98k/Kar98k (Girls Frontline)
- 包含内容:388张图像及其标签
- 核心标签:long_hair, red_eyes, white_hair, breasts, very_long_hair, bangs, hair_between_eyes, hat, peaked_cap, large_breasts, black_headwear
- 许可:MIT
- 任务类别:text-to-image
- 标签:art, not-for-all-audiences
- 大小类别:n<1K
数据集包信息
| 名称 | 图像数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 388 | 612.12 MiB | Waifuc-Raw | 包含元信息的原始数据,最小边对齐至1400像素(如果更大) |
| 800 | 388 | 310.65 MiB | IMG+TXT | 短边不超过800像素的数据集 |
| stage3-p480-800 | 974 | 671.72 MiB | IMG+TXT | 三阶段裁剪数据集,区域不小于480x480像素 |
| 1200 | 388 | 532.01 MiB | IMG+TXT | 短边不超过1200像素的数据集 |
| stage3-p480-1200 | 974 | 998.48 MiB | IMG+TXT | 三阶段裁剪数据集,区域不小于480x480像素 |
数据集加载方法
-
加载工具:waifuc
-
加载代码示例: python import os import zipfile from huggingface_hub import hf_hub_download from waifuc.source import LocalSource
zip_file = hf_hub_download( repo_id=CyberHarem/kar98k_girlsfrontline, repo_type=dataset, filename=dataset-raw.zip, )
dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)
source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])
数据集标签聚类结果
- 聚类列表:
# 样本数 标签(部分) 0 18 1girl, looking_at_viewer, solo, closed_mouth, fur_trim, iron_cross, black_choker, upper_body, cleavage, coat, cross_choker, simple_background, smile, white_background, long_sleeves, medium_breasts, belt, collarbone, jacket 1 10 1girl, black_footwear, bolt_action, fur_trim, holding_gun, iron_cross, looking_at_viewer, solo, thigh_boots, thighhighs, cleavage, jacket_on_shoulders, aiguillette, belt, coat, dress, simple_background, white_background, cross_choker, closed_mouth, long_sleeves, uniform, armband, black_choker, full_body, medium_breasts 2 8 1girl, cleavage, iron_cross, looking_at_viewer, solo, thighhighs, choker, fur_trim, thigh_boots, blush, belt, medium_breasts, black_footwear, smile 3 17 cleavage, white_dress, official_alternate_costume, 1girl, looking_at_viewer, wedding_dress, bridal_veil, bare_shoulders, solo, choker, closed_mouth, rose, collarbone, tiara, white_background, petals, simple_background, smile, holding_bouquet, blush, red_flower, ribbon, cross_necklace, off-shoulder_dress, wedding_ring
搜集汇总
数据集介绍

构建方式
在二次元角色图像数据集的构建领域,针对《少女前线》中的经典角色Kar98k,本数据集通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个知名图像站点收集了388张高质量图片及其对应的标签信息。数据采集流程由DeepGHS团队开发的自动化框架驱动,确保了来源的多样性与覆盖面。原始数据经过精细化处理,保留了角色的核心标签如长发、红瞳、白发等,并进行了必要的剪枝优化,以提升数据集的针对性与可用性。
特点
该数据集的一大特色在于提供了多版本、多尺度的数据包,包括原始未裁剪版本、短边不超过800或1200像素的标准化版本,以及经过三阶段裁剪处理、面积不低于480x480像素的增强版本,总计衍生出974张图像。此外,数据集还附带了标签聚类结果,将相似图像归为若干簇,便于用户挖掘角色在不同场景下的服装与姿态变化,如制服、婚纱等变体。每张图像均配有详细标签,覆盖角色属性、动作、背景等多维度信息。
使用方法
用户可通过Hugging Face Hub直接下载压缩包,支持多种使用方式。对于原始数据,推荐结合Waifuc库进行加载:首先利用huggingface_hub下载dataset-raw.zip文件,解压至本地目录后,通过LocalSource接口即可逐项访问图像及其元数据(包括文件名和标签)。标准化与裁剪版本则直接以IMG+TXT格式提供,方便快速集成到文本到图像模型的训练流程中,满足不同分辨率与裁剪策略的需求。
背景与挑战
背景概述
在生成式人工智能与数字艺术交叉领域,面向特定虚拟角色的高质量图像数据集构建正成为推动文本到图像生成模型发展的重要基石。CyberHarem/kar98k_girlsfrontline数据集由DeepGHS团队于近期创建,聚焦于手机游戏《少女前线》中的人气角色Kar98k。该数据集包含388张精心采集的图像及其对应标签,核心标签涵盖长发、红瞳、白发等角色标志性特征。数据源自Danbooru、Pixiv、Zerochan等多个知名二次元艺术平台,通过自动化爬取系统完成。该数据集为二次元角色定制化生成模型提供了标准化的训练素材,在虚拟角色再现与风格迁移等研究领域展现出显著的参考价值。
当前挑战
该数据集面临的核心挑战首先在于领域问题的复杂性,文本到图像生成任务要求模型不仅要准确理解角色外观的细粒度特征(如发型、瞳色、服饰细节),还需在保持角色一致性的前提下实现多样的姿态与场景变换,这对小样本学习与特征解耦能力提出了严苛要求。其次,构建过程中遭遇多重技术阻碍,包括跨平台数据采集时需应对不同网站的版权限制与反爬机制,图像质量参差不齐需进行严格的筛选与预处理,以及标签体系不统一导致的语义对齐困难。此外,仅388张的样本量远低于通用数据集规模,如何通过数据增强与迁移学习策略缓解过拟合风险,成为制约模型泛化能力的关键瓶颈。
常用场景
经典使用场景
在二次元图像生成与角色定制领域,CyberHarem/kar98k_girlsfrontline数据集被广泛用于训练文本到图像(text-to-image)扩散模型,特别是针对《少女前线》中Kar98k这一角色的精细化生成。该数据集包含388张高质量图像及其对应的标签,覆盖了角色在多种着装、姿态和场景下的视觉表现,为模型提供了丰富的特征学习素材。研究者常将其作为微调基础模型(如Stable Diffusion)的专用数据集,通过引入角色核心标签(如长白发、红瞳、贝雷帽等)实现风格化生成,从而在保持角色辨识度的同时探索多样化的艺术表达。
衍生相关工作
围绕该数据集,衍生出多项经典工作,包括基于标签聚类分析的风格迁移方法、多阶段裁剪策略的自动化数据增强框架,以及结合角色核心特征的知识蒸馏技术。研究者利用数据集中的图像簇(如婚礼服、军装等变体)构建了类别平衡的对比学习基准,推动了属性解耦表示学习的发展。此外,该数据集与waifuc工具链的深度整合,催生了从数据爬取、标注到模型训练的全流程自动化管线,成为二次元生成领域的重要基础设施。其衍生出的标签剪枝与分辨率适配策略,已被后续多个动漫角色数据集采纳为标准化处理流程。
数据集最近研究
最新研究方向
在二次元角色生成与个性化图像合成领域,CyberHarem/kar98k_girlsfrontline数据集为基于文本到图像扩散模型的角色定制研究提供了重要支撑。该数据集聚焦于《少女前线》中Kar98k这一高辨识度角色,通过多源爬取与精细标注,收录了388张涵盖多种装扮与姿态的高质量图像。当前前沿方向集中在利用此类角色专属数据集进行概念解耦与风格迁移,例如探索角色核心标签(如白发、红瞳、军帽)在LoRA或DreamBooth微调中的泛化能力,进而实现从官方立绘到同人创作的无缝迁移。该数据集的多分辨率裁剪版本与标签聚类结果,为研究角色在不同构图与服饰变体下的视觉一致性提供了基准,推动了二次元IP在可控生成与虚拟偶像构建中的技术落地。
以上内容由遇见数据集搜集并总结生成



