CyberHarem/diola_granbluefantasy

Name: CyberHarem/diola_granbluefantasy
Creator: CyberHarem
Published: 2024-01-21 17:49:22
License: 暂无描述

Hugging Face2024-01-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CyberHarem/diola_granbluefantasy

下载链接

链接失效反馈

官方服务：

资源简介：

这是名为diola/ジオラ (Granblue Fantasy)的数据集，包含79张图片及其标签。图片来源于多个网站（如danbooru、pixiv、zerochan等），并由DeepGHS团队的自动爬取系统收集。数据集的核心标签包括long_hair, blonde_hair, hat, breasts, large_breasts, green_eyes, brown_eyes, medium_breasts，这些标签在数据集中已被修剪。数据集提供了多个版本，包括原始数据、不同尺寸的图片以及经过裁剪的版本。此外，还提供了如何使用waifuc加载原始数据集的示例代码，并展示了标签聚类结果。

提供机构：

CyberHarem

原始信息汇总

数据集概述

数据集信息

名称: Dataset of diola/ジオラ (Granblue Fantasy)
许可: MIT
任务类别: text-to-image
标签: art, not-for-all-audiences
大小类别: n<1K
图像数量: 79
核心标签: long_hair, blonde_hair, hat, breasts, large_breasts, green_eyes, brown_eyes, medium_breasts

数据集包列表

名称	图像数量	大小	类型	描述
raw	79	81.55 MiB	Waifuc-Raw	原始数据，包含元信息（最小边对齐到1400像素，如果更大）。
800	79	60.09 MiB	IMG+TXT	短边不超过800像素的数据集。
stage3-p480-800	181	115.11 MiB	IMG+TXT	3阶段裁剪数据集，区域不小于480x480像素。
1200	79	78.67 MiB	IMG+TXT	短边不超过1200像素的数据集。
stage3-p480-1200	181	141.49 MiB	IMG+TXT	3阶段裁剪数据集，区域不小于480x480像素。

标签聚类结果

原始文本版本

#	样本数量	图像1	图像2	图像3	图像4	图像5	标签
0	43						1girl, solo, looking_at_viewer, bare_shoulders, blush, open_mouth, smile, simple_background, cleavage_cutout, white_background, dress
1	12						1boy, 1girl, blush, hetero, penis, solo_focus, censored, nipples, open_mouth, bare_shoulders, cum, paizuri, smile, white_background

表格版本

#	样本数量	图像1	图像2	图像3	图像4	图像5	1girl	solo	looking_at_viewer	bare_shoulders	blush	open_mouth	smile	simple_background	cleavage_cutout	white_background	dress	1boy	hetero	penis	solo_focus	censored	nipples	cum	paizuri
0	43						X	X	X	X	X	X	X	X	X	X
1	12						X			X	X	X	X			X		X	X	X	X	X	X	X	X

搜集汇总

数据集介绍

构建方式

在数字艺术与角色设计领域，数据集的构建往往依赖于对特定视觉元素的系统性采集。本数据集围绕《碧蓝幻想》中的角色“ジオラ”（diola）展开，通过自动化爬虫系统从多个知名艺术平台（如Danbooru、Pixiv、Zerochan等）搜集原始图像素材，共整合79幅图像及其对应标签。在数据预处理阶段，系统对图像进行了标准化处理，例如将较长边对齐至1400像素，并剔除了角色的核心标签（如长发、金发、帽子等），以确保数据集的聚焦性与可用性。这一构建流程体现了对多源异构艺术数据的有效聚合与清洗。

特点

该数据集在动漫风格图像生成任务中展现出鲜明的专属性与结构性。其核心特点在于提供了多种预处理版本，包括原始数据包及不同尺寸规格（如短边不超过800或1200像素）的衍生集，以及经过三阶段裁剪、确保区域不小于480×480像素的增强版本，共计181个样本。此外，数据集附带了基于标签聚类的结果，通过可视化样本与标签共现表格，揭示了角色在不同视觉情境（如单人肖像、互动场景）下的特征分布，为细粒度内容分析提供了结构化索引。这种多层次、多格式的数据组织方式，兼顾了研究与应用中的灵活需求。

使用方法

针对文本到图像生成及相关计算机视觉研究，本数据集提供了便捷的加载与集成方案。用户可通过Hugging Face Hub直接下载压缩包，或利用提供的Python代码配合Waifuc工具库加载原始数据，从而访问图像及其元标签信息。对于不同应用场景，研究者可选择适合的预处理版本：高分辨率版本适用于细节生成任务，而裁剪版本则有利于训练数据增强与局部特征学习。数据集中附带的聚类分析表格，可进一步辅助用户理解标签关联模式，为可控图像生成或角色属性挖掘提供参考依据。

背景与挑战

背景概述

在数字艺术与生成式人工智能蓬勃发展的背景下，CyberHarem/diola_granbluefantasy数据集应运而生，专注于为文本到图像生成任务提供高质量的角色视觉素材。该数据集由DeepGHS团队构建，依托自动化爬虫系统从Danbooru、Pixiv等知名艺术社区采集数据，核心聚焦于《碧蓝幻想》中的角色“ジオラ”（diola）。其创建旨在服务于角色特征分析与可控图像生成等研究，通过精细的标签标注与多版本图像处理，为动漫风格图像合成领域注入了新的数据资源，推动了生成模型在特定角色风格化表达方面的探索。

当前挑战

该数据集致力于解决动漫角色图像生成中风格一致性与特征可控性的核心挑战，尤其在处理特定角色的多样化姿态、服饰与场景时，模型需精准捕捉如“金发”、“帽子”等细微属性。在构建过程中，数据采集面临源站点异构、图像质量参差不齐以及标签噪声等难题；同时，为适配不同分辨率需求而进行的多尺度裁剪与预处理，亦对数据一致性与信息完整性提出了较高要求。此外，数据规模相对有限，可能制约模型在复杂特征组合上的泛化能力。

常用场景

经典使用场景

在动漫艺术与文本到图像生成领域，该数据集聚焦于《碧蓝幻想》中的角色ジオラ，通过79张图像及其标注，为风格化角色生成提供了精细的视觉参考。其经典使用场景在于训练生成对抗网络或扩散模型，以学习特定动漫角色的视觉特征，如金色长发、帽子与特定服饰细节，从而实现从文本描述到高质量动漫风格图像的精准合成。数据集的多版本裁剪设计支持不同分辨率的模型训练，优化了生成图像的清晰度与一致性。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，主要集中在动漫风格图像生成的算法优化上。例如，基于标签聚类的结果，研究者开发了针对角色服饰与场景的细粒度生成模型，提升了生成图像的多样性。同时，结合waifuc等工具链，推动了自动化数据爬取与预处理流程的标准化，为类似角色专属数据集的构建提供了参考框架。这些工作进一步拓展了条件生成模型在二次元艺术领域的应用深度。

数据集最近研究