CyberHarem/sarya_granbluefantasy
收藏Hugging Face2024-01-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/sarya_granbluefantasy
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为sarya (Granblue Fantasy)的数据集,包含47张图片及其标签。图片从多个网站(如danbooru, pixiv, zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集的核心标签包括`long_hair, horns, pointy_ears, breasts, glasses, ponytail, large_breasts, blonde_hair, green_eyes, ribbon, hair_ribbon, bow, brown_hair`。数据集提供了多个版本,包括原始数据、不同尺寸的图片以及经过裁剪的版本。README还提供了如何使用waifuc加载原始数据集的代码示例,并展示了标签聚类结果的表格。
这是一个名为sarya (Granblue Fantasy)的数据集,包含47张图片及其标签。图片从多个网站(如danbooru, pixiv, zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集的核心标签包括`long_hair, horns, pointy_ears, breasts, glasses, ponytail, large_breasts, blonde_hair, green_eyes, ribbon, hair_ribbon, bow, brown_hair`。数据集提供了多个版本,包括原始数据、不同尺寸的图片以及经过裁剪的版本。README还提供了如何使用waifuc加载原始数据集的代码示例,并展示了标签聚类结果的表格。
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集信息
- 名称: Dataset of sarya (Granblue Fantasy)
- 许可证: MIT
- 任务类别: text-to-image
- 标签: art, not-for-all-audiences
- 规模: n<1K
数据集内容
- 图像数量: 47张
- 核心标签: long_hair, horns, pointy_ears, breasts, glasses, ponytail, large_breasts, blonde_hair, green_eyes, ribbon, hair_ribbon, bow, brown_hair
数据包列表
| 名称 | 图像数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 47 | 36.57 MiB | Waifuc-Raw | 包含元信息的原始数据(最小边对齐到1400像素,如果更大)。 |
| 800 | 47 | 27.90 MiB | IMG+TXT | 短边不超过800像素的数据集。 |
| stage3-p480-800 | 100 | 55.28 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
| 1200 | 47 | 34.83 MiB | IMG+TXT | 短边不超过1200像素的数据集。 |
| stage3-p480-1200 | 100 | 64.64 MiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
标签聚类结果
| # | 样本数量 | 图像示例 | 标签 |
|---|---|---|---|
| 0 | 47 | ![]() |
1girl, draph, solo, looking_at_viewer, blush, smile, white_gloves, simple_background, necktie, short_sleeves, white_background, open_mouth, plaid_skirt, shirt |
搜集汇总
数据集介绍

构建方式
在动漫角色图像数据集的构建领域,CyberHarem/sarya_granbluefantasy数据集通过自动化爬虫技术从多个知名图像平台(如Danbooru、Pixiv、Zerochan等)系统性地收集了以《碧蓝幻想》中角色“莎莉雅”为主题的图像资源。该过程由DeepGHS团队开发的工具支持,确保了数据来源的多样性与完整性。原始图像经过预处理,包括边缘对齐至最小1400像素的标准化操作,并剔除了角色核心标签(如长发、角、眼镜等),最终形成包含47张图像及其对应标签的基础数据集。
特点
该数据集在动漫艺术图像处理领域展现出鲜明的结构化特征,提供了多种分辨率版本(如800像素短边限制、1200像素短边限制)以及经过三阶段裁剪的增强子集(确保区域不低于480x480像素),以适应不同计算需求。图像均配有精细的文本标签,并通过聚类分析呈现了角色“莎莉雅”的常见视觉属性(如服装、姿态、背景),为模型训练提供了高一致性的语义标注。数据规模虽小(少于1000样本),但专注于单一角色,确保了主题的纯净性与标注深度。
使用方法
在文本到图像生成任务中,研究者可通过HuggingFace Hub直接下载数据包的压缩文件(包括原始版本及预处理版本),并利用提供的Python代码示例加载数据。对于高级应用,可使用Waifuc工具从本地解压的原始文件中读取图像及其元数据(如文件名、标签),实现结构化访问。数据集的多种分辨率选项支持不同复杂度的模型训练,而标签聚类结果可用于挖掘角色视觉模式的潜在分布,为生成模型或特征分析提供基础。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的背景下,针对特定动漫角色的高质量图像数据集成为训练精细化文本到图像模型的关键资源。CyberHarem/sarya_granbluefantasy数据集由DeepGHS团队构建,专注于《碧蓝幻想》中的角色“莎莉亚”。该数据集通过自动化爬虫系统从Danbooru、Pixiv等主流艺术社区采集了47幅图像及其标注标签,旨在为角色一致性图像生成提供结构化数据支持。其创建响应了社区对细分角色视觉特征建模的需求,通过提供多尺寸版本与聚类分析,推动了动漫风格生成模型在细节控制与风格保真度方面的探索。
当前挑战
该数据集致力于解决动漫角色特定化图像生成中的挑战,即如何在有限样本下准确捕捉并复现角色的复杂视觉属性,如发型、服饰细节与色彩搭配。构建过程中的主要挑战包括:从异构网络源爬取图像时面临的质量参差与版权模糊性问题;对角色核心特征标签进行有效清洗与标准化,以消除标注噪声;以及在少量数据基础上通过裁剪与尺寸变换进行数据增强时,需平衡信息保留与生成多样性的关系。这些挑战凸显了小众角色数据集在规模与质量协同优化上的普遍困境。
常用场景
经典使用场景
在动漫风格图像生成领域,CyberHarem/sarya_granbluefantasy数据集作为角色专属的视觉资料库,其经典使用场景聚焦于训练文本到图像的生成模型。该数据集通过提供《碧蓝幻想》中角色莎莉亚的47张标注图像,为模型学习特定动漫角色的视觉特征与文本标签之间的映射关系提供了精准素材。研究者可利用其多尺寸裁剪版本,优化模型在生成细节丰富、风格一致的动漫角色图像时的表现,尤其在保持角色标志性属性如长发、角、眼镜等方面展现出实用价值。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在动漫风格生成模型的优化与扩展上。例如,基于类似角色专属数据集的研究催生了针对特定属性(如发色、服饰)的精细化生成技术,以及跨角色风格迁移的方法。这些工作不仅提升了生成图像的保真度与多样性,还推动了如Waifuc等自动化数据爬取与处理工具的发展,形成了从数据收集到模型训练的完整技术链路。
数据集最近研究
最新研究方向
在动漫风格图像生成领域,CyberHarem/sarya_granbluefantasy数据集作为《碧蓝幻想》角色莎莉亚的专项图像集合,正推动着文本到图像生成技术的精细化发展。该数据集通过精心标注的角色特征标签,如长发、角、眼镜等,为生成对抗网络(GAN)和扩散模型提供了高质量的监督学习素材。前沿研究聚焦于利用此类结构化数据提升生成图像的细节保真度与风格一致性,尤其在角色属性控制与多标签条件生成方面展现出潜力。随着动漫内容创作自动化的需求增长,该数据集在个性化角色生成、跨模态内容合成等热点方向的应用,不仅促进了艺术创作工具的革新,也为数字娱乐产业提供了技术支撑,具有显著的实践意义。
以上内容由遇见数据集搜集并总结生成




