five

CyberHarem/ak_47_girlsfrontline

收藏
Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/ak_47_girlsfrontline
下载链接
链接失效反馈
官方服务:
资源简介:
这是ak_47/AK-47/AK-47(少女前线)的数据集,包含39张图像及其标签。该角色的核心标签包括`blonde_hair, long_hair, hat, breasts, beret, blue_eyes, red_headwear, bangs, large_breasts`,这些标签在本数据集中已被修剪。图像从多个网站(如danbooru, pixiv, zerochan等)爬取,自动爬取系统由DeepGHS团队提供。数据集提供了多种下载包,包括原始数据、不同分辨率的图像数据集以及三阶段裁剪的数据集。此外,还提供了如何使用Waifuc加载原始数据集的代码示例,以及标签聚类结果的列表。

This is a dataset for ak_47/AK-47/AK-47 (Girls' Frontline), containing 39 images and their corresponding labels. The core tags for this character include `blonde_hair, long_hair, hat, breasts, beret, blue_eyes, red_headwear, bangs, large_breasts`, and these tags have been pruned in this dataset. The images were crawled from multiple websites such as danbooru, pixiv, zerochan, etc., and the automatic crawling system was provided by the DeepGHS team. This dataset offers various download packages, including raw data, image datasets with different resolutions, and a three-stage cropped dataset. Additionally, code examples for loading the raw dataset using Waifuc, as well as a list of tag clustering results, are provided.
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集名称

  • 名称: ak_47/AK-47/AK-47 (Girls Frontline)

数据集内容

  • 描述: 包含39张图像及其标签。
  • 核心标签: blonde_hair, long_hair, hat, breasts, beret, blue_eyes, red_headwear, bangs, large_breasts

数据集来源

  • 来源: 从多个网站爬取,如danbooru, pixiv, zerochan等。
  • 爬取系统: 由DeepGHS Team提供。

数据集许可

  • 许可: MIT

数据集分类

  • 任务类别: text-to-image
  • 标签: art, not-for-all-audiences
  • 大小类别: n<1K

数据集包

名称 图像数量 大小 类型 描述
raw 39 37.37 MiB Waifuc-Raw 包含元信息的原始数据,最小边对齐到1400像素(如果更大)。
800 39 26.36 MiB IMG+TXT 短边不超过800像素的数据集。
stage3-p480-800 87 53.01 MiB IMG+TXT 三阶段裁剪数据集,区域不小于480x480像素。
1200 39 34.65 MiB IMG+TXT 短边不超过1200像素的数据集。
stage3-p480-1200 87 65.50 MiB IMG+TXT 三阶段裁剪数据集,区域不小于480x480像素。

数据集加载

  • 加载工具: waifuc

  • 加载代码示例: python import os import zipfile

    from huggingface_hub import hf_hub_download from waifuc.source import LocalSource

    download raw archive file

    zip_file = hf_hub_download( repo_id=CyberHarem/ak_47_girlsfrontline, repo_type=dataset, filename=dataset-raw.zip, )

    extract files to your directory

    dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)

    load the dataset with waifuc

    source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])

数据集集群

# 样本数量 图像示例 标签
0 39 1girl, solo, red_scarf, cleavage, white_gloves, holding, looking_at_viewer, simple_background, ak-47, smile, blush, shorts, star_(symbol), white_background, boots, green_bikini
搜集汇总
数据集介绍
main_image_url
构建方式
在动漫角色数据集的构建领域中,CyberHarem/ak_47_girlsfrontline 数据集聚焦于游戏《少女前线》中的角色AK-47。该数据集通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个知名图像平台收集原始图像,共收录39张高质量图片。构建过程中,首先对图像进行元数据标注,并针对角色核心标签(如金发、长发、帽子、蓝色眼睛等)进行筛选与精简。数据集提供多种预处理版本,包括原始版、短边不超过800或1200像素的缩放版,以及基于三阶段裁剪策略生成的480像素以上区域裁剪版,以满足不同训练需求。
特点
该数据集的核心特点在于其精细化的多版本设计与标签聚类分析。数据集不仅提供了原始未处理图像,还通过缩放和裁剪操作生成适配不同模型输入尺寸的版本,例如800像素和1200像素的短边限制版,以及三阶段裁剪后的480像素以上区域版,显著提升了数据使用的灵活性。此外,数据集附带了标签聚类结果,通过可视化样例和标签列表,揭示了角色在不同图像中的共同特征(如红色围巾、白色手套、绿色比基尼等),为研究者挖掘角色服饰和场景模式提供了结构化参考。
使用方法
数据集的使用方式灵活多样,支持通过waifuc库加载原始数据。用户可直接从HuggingFace下载压缩包,解压后利用LocalSource接口读取图像及其元数据(如文件名和标签),便于进行自定义训练或分析。此外,各预处理版本均以IMG+TXT格式提供,可直接用于文本到图像生成模型的训练。对于需要批量处理或特定尺寸输入的场景,推荐选择缩放版或裁剪版,以平衡图像质量与计算效率。
背景与挑战
背景概述
在文本到图像生成领域,高质量、细粒度的角色数据集是驱动模型精准刻画虚拟形象的关键资源。CyberHarem/ak_47_girlsfrontline数据集由DeepGHS团队于近年创建,聚焦于游戏《少女前线》中的角色AK-47(又称AK-47),收录了39张经过精细标注的图像。该数据集的核心研究问题在于,如何通过自动爬取与多源整合(如Danbooru、Pixiv、Zerochan等平台),为二次元角色构建兼具多样性与一致性的训练样本,从而支持生成模型在角色特征(如金发、长角、贝雷帽等)上的稳定还原。其影响不仅体现在为特定角色提供了标准化数据基准,更推动了动漫风格图像生成中标签清洗与尺寸标准化流程的自动化探索。
当前挑战
该数据集面临的挑战主要源于领域问题与构建过程的双重复杂性。在领域层面,文本到图像生成模型需解决角色特征的高保真映射难题,例如AK-47的红色围巾、绿色比基尼等细节在生成时易出现语义混淆或风格偏移,而仅有39张样本的小规模数据进一步加剧了模型过拟合风险。在构建过程中,自动爬取系统虽提升了效率,却面临多源图像质量参差、标签噪声(如冗余或缺失的核心标签)及版权合规性等棘手问题;此外,尺寸标准化(如短边对齐800或1200像素)与三阶段裁剪策略(确保区域不低于480×480像素)虽优化了数据一致性,却可能牺牲原始构图的完整性,为后续生成任务引入局部偏差。
常用场景
经典使用场景
在文本到图像生成领域,CyberHarem/ak_47_girlsfrontline 数据集主要用于微调扩散模型(如 Stable Diffusion)以生成特定角色(AK-47 from Girls' Frontline)的高质量图像。该数据集包含 39 张精心标注的图像,并提供了多种分辨率版本(如 800px、1200px)及裁剪版本,便于研究者根据需求选择。其经典使用场景在于利用少量样本进行角色概念学习,通过标签驱动的生成方式,实现从文本描述到角色形象的精准映射,为个性化图像生成提供了基础数据支撑。
实际应用
在实际应用中,该数据集支持游戏开发、虚拟偶像运营和同人创作等场景。开发者可利用微调后的模型快速生成 AK-47 角色的新立绘、表情包或宣传素材,降低美术成本。此外,结合标签系统,用户可通过输入“AK-47, smile, holding weapon”等文本指令,实时生成符合角色设定的图像,这为交互式内容创作和个性化定制工具(如角色设计助手)提供了技术原型。
衍生相关工作
该数据集衍生了一系列相关工作,包括基于 DreamBooth 和 LoRA 的角色微调方法,以及 Waifuc 框架的自动化数据采集与清洗流程。研究者在此基础上探索了多角色混合生成、标签噪声鲁棒训练等课题。同时,该数据集作为 CyberHarem 项目的一部分,推动了动漫角色数据集标准化建设,影响了后续如 danbooru-tagger 等标签自动化工具的开发,形成了从数据收集到模型部署的完整技术链条。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作