five

CyberHarem/m38_girlsfrontline

收藏
Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/m38_girlsfrontline
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - text-to-image tags: - art - not-for-all-audiences size_categories: - n<1K --- # Dataset of m38/M38/伯莱塔38型 (Girls' Frontline) This is the dataset of m38/M38/伯莱塔38型 (Girls' Frontline), containing 10 images and their tags. The core tags of this character are `blue_eyes, long_hair, ahoge, hat, bangs, beret, hair_ornament, brown_hair, hairclip, breasts, hair_between_eyes`, which are pruned in this dataset. Images are crawled from many sites (e.g. danbooru, pixiv, zerochan ...), the auto-crawling system is powered by [DeepGHS Team](https://github.com/deepghs)([huggingface organization](https://huggingface.co/deepghs)). ## List of Packages | Name | Images | Size | Download | Type | Description | |:-----------------|---------:|:----------|:--------------------------------------------------------------------------------------------------------------------|:-----------|:---------------------------------------------------------------------| | raw | 10 | 13.19 MiB | [Download](https://huggingface.co/datasets/CyberHarem/m38_girlsfrontline/resolve/main/dataset-raw.zip) | Waifuc-Raw | Raw data with meta information (min edge aligned to 1400 if larger). | | 800 | 10 | 6.30 MiB | [Download](https://huggingface.co/datasets/CyberHarem/m38_girlsfrontline/resolve/main/dataset-800.zip) | IMG+TXT | dataset with the shorter side not exceeding 800 pixels. | | stage3-p480-800 | 22 | 13.52 MiB | [Download](https://huggingface.co/datasets/CyberHarem/m38_girlsfrontline/resolve/main/dataset-stage3-p480-800.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. | | 1200 | 10 | 10.95 MiB | [Download](https://huggingface.co/datasets/CyberHarem/m38_girlsfrontline/resolve/main/dataset-1200.zip) | IMG+TXT | dataset with the shorter side not exceeding 1200 pixels. | | stage3-p480-1200 | 22 | 20.85 MiB | [Download](https://huggingface.co/datasets/CyberHarem/m38_girlsfrontline/resolve/main/dataset-stage3-p480-1200.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. | ### Load Raw Dataset with Waifuc We provide raw dataset (including tagged images) for [waifuc](https://deepghs.github.io/waifuc/main/tutorials/installation/index.html) loading. If you need this, just run the following code ```python import os import zipfile from huggingface_hub import hf_hub_download from waifuc.source import LocalSource # download raw archive file zip_file = hf_hub_download( repo_id='CyberHarem/m38_girlsfrontline', repo_type='dataset', filename='dataset-raw.zip', ) # extract files to your directory dataset_dir = 'dataset_dir' os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, 'r') as zf: zf.extractall(dataset_dir) # load the dataset with waifuc source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta['filename'], item.meta['tags']) ``` ## List of Clusters List of tag clustering result, maybe some outfits can be mined here. ### Raw Text Version | # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | Tags | |----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | 0 | 10 | ![](samples/0/clu0-sample0.png) | ![](samples/0/clu0-sample1.png) | ![](samples/0/clu0-sample2.png) | ![](samples/0/clu0-sample3.png) | ![](samples/0/clu0-sample4.png) | 1girl, looking_at_viewer, simple_background, solo, white_shirt, long_sleeves, pleated_skirt, submachine_gun, white_background, white_thighhighs, black_footwear, black_skirt, closed_mouth, holding_gun, jacket, military_uniform, red_necktie, loafers, belt, blush, collared_shirt, full_body, standing | ### Table Version | # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | 1girl | looking_at_viewer | simple_background | solo | white_shirt | long_sleeves | pleated_skirt | submachine_gun | white_background | white_thighhighs | black_footwear | black_skirt | closed_mouth | holding_gun | jacket | military_uniform | red_necktie | loafers | belt | blush | collared_shirt | full_body | standing | |----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------|:--------------------|:--------------------|:-------|:--------------|:---------------|:----------------|:-----------------|:-------------------|:-------------------|:-----------------|:--------------|:---------------|:--------------|:---------|:-------------------|:--------------|:----------|:-------|:--------|:-----------------|:------------|:-----------| | 0 | 10 | ![](samples/0/clu0-sample0.png) | ![](samples/0/clu0-sample1.png) | ![](samples/0/clu0-sample2.png) | ![](samples/0/clu0-sample3.png) | ![](samples/0/clu0-sample4.png) | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X |
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集信息

  • 名称: Dataset of m38/M38/伯莱塔38型 (Girls Frontline)
  • 许可证: MIT
  • 任务类别: text-to-image
  • 标签: art, not-for-all-audiences
  • 大小类别: n<1K

数据集内容

  • 图像数量: 10张
  • 核心标签: blue_eyes, long_hair, ahoge, hat, bangs, beret, hair_ornament, brown_hair, hairclip, breasts, hair_between_eyes

数据包列表

名称 图像数量 大小 类型 描述
raw 10 13.19 MiB Waifuc-Raw 原始数据,包含元信息(最小边对齐到1400像素,如果更大)。
800 10 6.30 MiB IMG+TXT 短边不超过800像素的数据集。
stage3-p480-800 22 13.52 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。
1200 10 10.95 MiB IMG+TXT 短边不超过1200像素的数据集。
stage3-p480-1200 22 20.85 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。

标签聚类结果

原始文本版本

# 样本数量 图像1 图像2 图像3 图像4 图像5 标签
0 10 1girl, looking_at_viewer, simple_background, solo, white_shirt, long_sleeves, pleated_skirt, submachine_gun, white_background, white_thighhighs, black_footwear, black_skirt, closed_mouth, holding_gun, jacket, military_uniform, red_necktie, loafers, belt, blush, collared_shirt, full_body, standing

表格版本

# 样本数量 图像1 图像2 图像3 图像4 图像5 1girl looking_at_viewer simple_background solo white_shirt long_sleeves pleated_skirt submachine_gun white_background white_thighhighs black_footwear black_skirt closed_mouth holding_gun jacket military_uniform red_necktie loafers belt blush collared_shirt full_body standing
0 10 X X X X X X X X X X X X X X X X X X X X X X X
搜集汇总
数据集介绍
main_image_url
构建方式
在二次元角色数据集构建领域,针对《少女前线》中的角色M38(伯莱塔38型),本数据集通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个知名图像站点收集原始图像。爬取工作由DeepGHS团队开发的自动化工具完成,确保了图像来源的广泛性与多样性。数据集共收录10幅图像,并为其标注了核心标签,如蓝眼、长发、呆毛、帽子等。为了适配不同训练需求,数据集提供了raw、800、1200等不同分辨率的压缩包,以及经过三阶段裁剪的stage3-p480-800和stage3-p480-1200版本,后者通过智能裁剪生成22个子图,显著扩充了样本数量。
特点
该数据集的核心特色在于其精细化的标签体系与多版本结构。每幅图像均附带丰富的描述性标签,涵盖角色外貌、服饰、动作与背景等维度,便于进行文本到图像的生成任务。数据集提供了五种压缩包形式,raw版本保留原始元信息,800和1200版本则限制短边尺寸以控制存储,而stage3系列通过多阶段裁剪策略,在保证图像质量的前提下生成更多训练样本。此外,数据集还提供了标签聚类结果,以文本和表格两种形式呈现,揭示了角色常见组合特征,为风格迁移与角色定制提供了结构化参考。
使用方法
本数据集的使用方式灵活多样,尤其适合基于文本到图像生成模型的训练与微调。用户可直接通过Hugging Face Hub下载不同版本的压缩包,解压后获得图像与对应的标签文件。对于希望深度整合元数据的开发者,推荐使用Waifuc框架加载raw版本,通过简洁的Python代码即可访问每幅图像的像素内容、文件名与标签信息,便于构建自定义的数据流水线。标签聚类结果可辅助分析角色常见构图模式,或作为数据增强的指导。数据集采用MIT许可证,鼓励学术研究与二次开发。
背景与挑战
背景概述
在生成式人工智能领域,文本到图像(Text-to-Image)任务近年来取得了突破性进展,尤其是针对特定角色或风格的高质量图像生成需求日益增长。CyberHarem/m38_girlsfrontline数据集由DeepGHS团队于近期创建,专注于《少女前线》(Girls' Frontline)游戏中的角色“伯莱塔38型”(M38)。该数据集包含10张精心采集的图像及其对应标签,核心标签涵盖蓝色眼睛、长发、呆毛、贝雷帽等角色特征。作为面向动漫角色生成的小规模专用数据集,它旨在为研究者提供精细化的训练素材,支持角色一致性生成、标签化图像检索等方向的研究。尽管规模有限,但该数据集通过自动化采集系统整合了Danbooru、Pixiv等多平台资源,为特定虚拟角色的图像生成研究提供了标准化基准,推动了动漫风格文本到图像模型在细分领域的应用探索。
当前挑战
该数据集面临的首要挑战在于领域问题的复杂性:文本到图像生成需在有限样本(仅10张原始图像)条件下,精准捕捉角色核心特征(如贝雷帽、棕色长发等)并避免过拟合,同时平衡图像质量与多样性。构建过程中,自动化爬取系统虽高效,但面临跨平台图像版权、元数据一致性及噪声标签清洗等难题;例如,不同来源的图像分辨率差异需通过边缘对齐至1400像素处理,而标签裁剪(如移除核心标签中的冗余项)可能丢失细微语义。此外,数据集的多分辨率版本(如800像素、1200像素)及三阶段裁剪策略虽提升了适用性,但小样本特性仍限制模型泛化能力,易导致生成图像在服饰细节或姿态上的模式固化。
常用场景
经典使用场景
该数据集专为文本到图像生成任务而设计,聚焦于《少女前线》中的角色M38(伯莱塔38型)。其经典使用场景在于微调扩散模型(如Stable Diffusion),通过提供10张高质量角色图像及标注标签(如蓝眼、长发、贝雷帽等),使模型精准学习该角色的视觉特征与风格,从而生成符合角色设定的全新图像。数据集提供了多种分辨率版本(如800px、1200px)和裁剪版本,以适应不同模型的训练需求,是动漫风格角色定制化生成研究的理想资源。
实际应用
在实际应用中,该数据集支持游戏开发与二次创作生态。例如,开发者可利用微调后的模型快速生成角色宣传图、表情包或粉丝艺术作品,降低人工绘制成本。同时,数据集的多分辨率版本适配不同计算资源(如移动端或云端推理),便于集成到AI绘画工具(如NovelAI、WaifuDiffusion)中,实现用户驱动的角色定制化生成,满足同人创作与虚拟偶像运营的规模化需求。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于Waifuc框架的图像爬取与标注管线优化,以及针对动漫角色的多阶段裁剪策略(如stage3-p480-800),提升了训练数据的质量与多样性。此外,研究者利用该数据集探索了角色聚类分析(如通过标签聚类识别不同服饰变体),并推动了概念遗忘(concept erasure)与风格迁移技术在角色生成中的边界研究,为保护角色版权与个性化生成提供了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作