CyberHarem/m38_girlsfrontline
收藏Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/m38_girlsfrontline
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-to-image
tags:
- art
- not-for-all-audiences
size_categories:
- n<1K
---
# Dataset of m38/M38/伯莱塔38型 (Girls' Frontline)
This is the dataset of m38/M38/伯莱塔38型 (Girls' Frontline), containing 10 images and their tags.
The core tags of this character are `blue_eyes, long_hair, ahoge, hat, bangs, beret, hair_ornament, brown_hair, hairclip, breasts, hair_between_eyes`, which are pruned in this dataset.
Images are crawled from many sites (e.g. danbooru, pixiv, zerochan ...), the auto-crawling system is powered by [DeepGHS Team](https://github.com/deepghs)([huggingface organization](https://huggingface.co/deepghs)).
## List of Packages
| Name | Images | Size | Download | Type | Description |
|:-----------------|---------:|:----------|:--------------------------------------------------------------------------------------------------------------------|:-----------|:---------------------------------------------------------------------|
| raw | 10 | 13.19 MiB | [Download](https://huggingface.co/datasets/CyberHarem/m38_girlsfrontline/resolve/main/dataset-raw.zip) | Waifuc-Raw | Raw data with meta information (min edge aligned to 1400 if larger). |
| 800 | 10 | 6.30 MiB | [Download](https://huggingface.co/datasets/CyberHarem/m38_girlsfrontline/resolve/main/dataset-800.zip) | IMG+TXT | dataset with the shorter side not exceeding 800 pixels. |
| stage3-p480-800 | 22 | 13.52 MiB | [Download](https://huggingface.co/datasets/CyberHarem/m38_girlsfrontline/resolve/main/dataset-stage3-p480-800.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
| 1200 | 10 | 10.95 MiB | [Download](https://huggingface.co/datasets/CyberHarem/m38_girlsfrontline/resolve/main/dataset-1200.zip) | IMG+TXT | dataset with the shorter side not exceeding 1200 pixels. |
| stage3-p480-1200 | 22 | 20.85 MiB | [Download](https://huggingface.co/datasets/CyberHarem/m38_girlsfrontline/resolve/main/dataset-stage3-p480-1200.zip) | IMG+TXT | 3-stage cropped dataset with the area not less than 480x480 pixels. |
### Load Raw Dataset with Waifuc
We provide raw dataset (including tagged images) for [waifuc](https://deepghs.github.io/waifuc/main/tutorials/installation/index.html) loading. If you need this, just run the following code
```python
import os
import zipfile
from huggingface_hub import hf_hub_download
from waifuc.source import LocalSource
# download raw archive file
zip_file = hf_hub_download(
repo_id='CyberHarem/m38_girlsfrontline',
repo_type='dataset',
filename='dataset-raw.zip',
)
# extract files to your directory
dataset_dir = 'dataset_dir'
os.makedirs(dataset_dir, exist_ok=True)
with zipfile.ZipFile(zip_file, 'r') as zf:
zf.extractall(dataset_dir)
# load the dataset with waifuc
source = LocalSource(dataset_dir)
for item in source:
print(item.image, item.meta['filename'], item.meta['tags'])
```
## List of Clusters
List of tag clustering result, maybe some outfits can be mined here.
### Raw Text Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | Tags |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 0 | 10 |  |  |  |  |  | 1girl, looking_at_viewer, simple_background, solo, white_shirt, long_sleeves, pleated_skirt, submachine_gun, white_background, white_thighhighs, black_footwear, black_skirt, closed_mouth, holding_gun, jacket, military_uniform, red_necktie, loafers, belt, blush, collared_shirt, full_body, standing |
### Table Version
| # | Samples | Img-1 | Img-2 | Img-3 | Img-4 | Img-5 | 1girl | looking_at_viewer | simple_background | solo | white_shirt | long_sleeves | pleated_skirt | submachine_gun | white_background | white_thighhighs | black_footwear | black_skirt | closed_mouth | holding_gun | jacket | military_uniform | red_necktie | loafers | belt | blush | collared_shirt | full_body | standing |
|----:|----------:|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------------------------------|:--------|:--------------------|:--------------------|:-------|:--------------|:---------------|:----------------|:-----------------|:-------------------|:-------------------|:-----------------|:--------------|:---------------|:--------------|:---------|:-------------------|:--------------|:----------|:-------|:--------|:-----------------|:------------|:-----------|
| 0 | 10 |  |  |  |  |  | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X |
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集信息
- 名称: Dataset of m38/M38/伯莱塔38型 (Girls Frontline)
- 许可证: MIT
- 任务类别: text-to-image
- 标签: art, not-for-all-audiences
- 大小类别: n<1K
数据集内容
- 图像数量: 10张
- 核心标签: blue_eyes, long_hair, ahoge, hat, bangs, beret, hair_ornament, brown_hair, hairclip, breasts, hair_between_eyes
数据包列表
| 名称 | 图像数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 10 | 13.19 MiB | Waifuc-Raw | 原始数据,包含元信息(最小边对齐到1400像素,如果更大)。 |
| 800 | 10 | 6.30 MiB | IMG+TXT | 短边不超过800像素的数据集。 |
| stage3-p480-800 | 22 | 13.52 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
| 1200 | 10 | 10.95 MiB | IMG+TXT | 短边不超过1200像素的数据集。 |
| stage3-p480-1200 | 22 | 20.85 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
标签聚类结果
原始文本版本
| # | 样本数量 | 图像1 | 图像2 | 图像3 | 图像4 | 图像5 | 标签 |
|---|---|---|---|---|---|---|---|
| 0 | 10 | ![]() |
![]() |
![]() |
![]() |
![]() |
1girl, looking_at_viewer, simple_background, solo, white_shirt, long_sleeves, pleated_skirt, submachine_gun, white_background, white_thighhighs, black_footwear, black_skirt, closed_mouth, holding_gun, jacket, military_uniform, red_necktie, loafers, belt, blush, collared_shirt, full_body, standing |
表格版本
| # | 样本数量 | 图像1 | 图像2 | 图像3 | 图像4 | 图像5 | 1girl | looking_at_viewer | simple_background | solo | white_shirt | long_sleeves | pleated_skirt | submachine_gun | white_background | white_thighhighs | black_footwear | black_skirt | closed_mouth | holding_gun | jacket | military_uniform | red_necktie | loafers | belt | blush | collared_shirt | full_body | standing |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 10 | ![]() |
![]() |
![]() |
![]() |
![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X |
搜集汇总
数据集介绍

构建方式
在二次元角色数据集构建领域,针对《少女前线》中的角色M38(伯莱塔38型),本数据集通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个知名图像站点收集原始图像。爬取工作由DeepGHS团队开发的自动化工具完成,确保了图像来源的广泛性与多样性。数据集共收录10幅图像,并为其标注了核心标签,如蓝眼、长发、呆毛、帽子等。为了适配不同训练需求,数据集提供了raw、800、1200等不同分辨率的压缩包,以及经过三阶段裁剪的stage3-p480-800和stage3-p480-1200版本,后者通过智能裁剪生成22个子图,显著扩充了样本数量。
特点
该数据集的核心特色在于其精细化的标签体系与多版本结构。每幅图像均附带丰富的描述性标签,涵盖角色外貌、服饰、动作与背景等维度,便于进行文本到图像的生成任务。数据集提供了五种压缩包形式,raw版本保留原始元信息,800和1200版本则限制短边尺寸以控制存储,而stage3系列通过多阶段裁剪策略,在保证图像质量的前提下生成更多训练样本。此外,数据集还提供了标签聚类结果,以文本和表格两种形式呈现,揭示了角色常见组合特征,为风格迁移与角色定制提供了结构化参考。
使用方法
本数据集的使用方式灵活多样,尤其适合基于文本到图像生成模型的训练与微调。用户可直接通过Hugging Face Hub下载不同版本的压缩包,解压后获得图像与对应的标签文件。对于希望深度整合元数据的开发者,推荐使用Waifuc框架加载raw版本,通过简洁的Python代码即可访问每幅图像的像素内容、文件名与标签信息,便于构建自定义的数据流水线。标签聚类结果可辅助分析角色常见构图模式,或作为数据增强的指导。数据集采用MIT许可证,鼓励学术研究与二次开发。
背景与挑战
背景概述
在生成式人工智能领域,文本到图像(Text-to-Image)任务近年来取得了突破性进展,尤其是针对特定角色或风格的高质量图像生成需求日益增长。CyberHarem/m38_girlsfrontline数据集由DeepGHS团队于近期创建,专注于《少女前线》(Girls' Frontline)游戏中的角色“伯莱塔38型”(M38)。该数据集包含10张精心采集的图像及其对应标签,核心标签涵盖蓝色眼睛、长发、呆毛、贝雷帽等角色特征。作为面向动漫角色生成的小规模专用数据集,它旨在为研究者提供精细化的训练素材,支持角色一致性生成、标签化图像检索等方向的研究。尽管规模有限,但该数据集通过自动化采集系统整合了Danbooru、Pixiv等多平台资源,为特定虚拟角色的图像生成研究提供了标准化基准,推动了动漫风格文本到图像模型在细分领域的应用探索。
当前挑战
该数据集面临的首要挑战在于领域问题的复杂性:文本到图像生成需在有限样本(仅10张原始图像)条件下,精准捕捉角色核心特征(如贝雷帽、棕色长发等)并避免过拟合,同时平衡图像质量与多样性。构建过程中,自动化爬取系统虽高效,但面临跨平台图像版权、元数据一致性及噪声标签清洗等难题;例如,不同来源的图像分辨率差异需通过边缘对齐至1400像素处理,而标签裁剪(如移除核心标签中的冗余项)可能丢失细微语义。此外,数据集的多分辨率版本(如800像素、1200像素)及三阶段裁剪策略虽提升了适用性,但小样本特性仍限制模型泛化能力,易导致生成图像在服饰细节或姿态上的模式固化。
常用场景
经典使用场景
该数据集专为文本到图像生成任务而设计,聚焦于《少女前线》中的角色M38(伯莱塔38型)。其经典使用场景在于微调扩散模型(如Stable Diffusion),通过提供10张高质量角色图像及标注标签(如蓝眼、长发、贝雷帽等),使模型精准学习该角色的视觉特征与风格,从而生成符合角色设定的全新图像。数据集提供了多种分辨率版本(如800px、1200px)和裁剪版本,以适应不同模型的训练需求,是动漫风格角色定制化生成研究的理想资源。
实际应用
在实际应用中,该数据集支持游戏开发与二次创作生态。例如,开发者可利用微调后的模型快速生成角色宣传图、表情包或粉丝艺术作品,降低人工绘制成本。同时,数据集的多分辨率版本适配不同计算资源(如移动端或云端推理),便于集成到AI绘画工具(如NovelAI、WaifuDiffusion)中,实现用户驱动的角色定制化生成,满足同人创作与虚拟偶像运营的规模化需求。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于Waifuc框架的图像爬取与标注管线优化,以及针对动漫角色的多阶段裁剪策略(如stage3-p480-800),提升了训练数据的质量与多样性。此外,研究者利用该数据集探索了角色聚类分析(如通过标签聚类识别不同服饰变体),并推动了概念遗忘(concept erasure)与风格迁移技术在角色生成中的边界研究,为保护角色版权与个性化生成提供了方法论基础。
以上内容由遇见数据集搜集并总结生成








