CyberHarem/raiden_shogun_genshin
收藏Hugging Face2024-05-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/raiden_shogun_genshin
下载链接
链接失效反馈官方服务:
资源简介:
这是《原神》中角色雷电将军(Raiden Shogun)的数据集,包含500张图像及其标签。图像从多个网站(如danbooru、pixiv、zerochan等)爬取,并由DeepGHS团队提供技术支持。数据集的核心标签包括长头发、紫色头发、紫色眼睛等。
这是《原神》中角色雷电将军(Raiden Shogun)的数据集,包含500张图像及其标签。图像从多个网站(如danbooru、pixiv、zerochan等)爬取,并由DeepGHS团队提供技术支持。数据集的核心标签包括长头发、紫色头发、紫色眼睛等。
提供机构:
CyberHarem
原始信息汇总
数据集概述
基本信息
- 名称: raiden_shogun/雷電将軍/雷电将军 (Genshin Impact)
- 许可证: MIT
- 任务类别: text-to-image
- 标签: art, not-for-all-audiences
- 大小类别: n<1K
内容描述
- 包含内容: 500张图像及其标签
- 核心标签: long_hair, purple_hair, purple_eyes, breasts, mole, mole_under_eye, large_breasts, hair_ornament, braid, very_long_hair, braided_ponytail, hair_flower
数据集结构
- 数据包列表:
-
名称: raw
- 图像数量: 500
- 大小: 1.33 GiB
- 下载链接: raw数据集下载
- 类型: Waifuc-Raw
- 描述: 包含元信息的原始数据(最小边对齐到1400像素,如果更大)
-
名称: stage3-p480-1200
- 图像数量: 1392
- 大小: 2.13 GiB
- 下载链接: stage3-p480-1200数据集下载
- 类型: IMG+TXT
- 描述: 3阶段裁剪数据集,区域不小于480x480像素
-
使用方法
-
加载原始数据集: 提供用于waifuc加载的原始数据集(包括标记图像)。使用示例代码如下: python import os import zipfile
from huggingface_hub import hf_hub_download from waifuc.source import LocalSource
下载原始档案文件
zip_file = hf_hub_download( repo_id=CyberHarem/raiden_shogun_genshin, repo_type=dataset, filename=dataset-raw.zip, )
提取文件到你的目录
dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)
使用waifuc加载数据集
source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])
集群列表
- 集群示例:
- 集群0: 包含5个样本,主要标签包括1girl, alternate_costume, bare_shoulders等。
- 集群1: 包含6个样本,主要标签包括1girl, cleavage, collarbone等。
- 集群2: 包含10个样本,主要标签包括1girl, looking_at_viewer, solo等。
- 集群3: 包含18个样本,主要标签包括1girl, cleavage, solo等。
- 集群4: 包含8个样本,主要标签包括1girl, alternate_costume, collared_shirt等。
- 集群5: 包含22个样本,主要标签包括1girl, cleavage, musou_isshin_(genshin_impact)等。
- 集群6: 包含6个样本,主要标签包括1girl, blush, bridal_gauntlets等。
- 集群7: 包含18个样本,主要标签包括1girl, cleavage, looking_at_viewer等。
- 集群8: 包含9个样本,主要标签包括1girl, backless_dress, bare_shoulders等。
- 集群9: 包含10个样本,主要标签包括1girl, alternate_costume, looking_at_viewer等。
搜集汇总
数据集介绍

构建方式
在动漫角色图像数据集的构建领域,CyberHarem/raiden_shogun_genshin数据集通过自动化爬虫系统从多个知名艺术平台(如Danbooru、Pixiv、Zerochan等)系统性地采集了500张关于《原神》角色雷电将军的视觉素材。该过程由DeepGHS团队技术支持,确保了数据来源的多样性与代表性。原始图像经过预处理,将较长边缘统一对齐至1400像素,并剔除了角色的核心标签(如长发、紫色头发等),以优化后续的模型训练效果。数据集进一步提供了经过三阶段裁剪的版本,确保每张图像区域不低于480x480像素,从而适配不同分辨率的生成需求。
特点
该数据集专注于单一动漫角色的多维度视觉呈现,涵盖了雷电将军在不同服饰、姿态与场景下的丰富变体。其核心特征在于提供了精细的标签标注体系,每张图像均附带详细的元数据标签,这些标签不仅描述了角色的外观属性(如发型、服饰细节),还包含了情境元素(如背景、动作)。数据集通过聚类分析展示了多个视觉主题簇,例如和服装束、现代职场装扮与泳装造型等,揭示了角色在艺术创作中的风格多样性。这种结构化的标签与聚类设计,为文本到图像生成任务提供了高精度的语义对齐基础。
使用方法
用户可通过Hugging Face平台直接下载数据集的原始包或预处理版本。原始数据集支持通过Waifuc工具库加载,便于在Python环境中访问图像及其关联的标签元数据。对于生成式模型训练,推荐使用经过裁剪的stage3-p480-1200版本,该版本已优化图像尺寸,适合作为稳定扩散等模型的输入。数据集的聚类结果可作为提示词设计的参考,帮助研究者探索特定视觉风格的生成规律。在实际应用中,该数据集适用于动漫风格图像生成、角色一致性研究以及跨模态检索任务的实验验证。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的时代背景下,角色特定图像数据集的构建成为推动风格化文本到图像生成技术演进的关键。CyberHarem/raiden_shogun_genshin数据集由DeepGHS团队创建,专注于采集热门游戏《原神》中角色“雷电将军”的二次创作图像。该数据集的核心研究问题在于,如何为单一虚构角色构建一个高质量、多姿态、多服饰的标注图像集合,以支持角色一致性图像生成模型的训练与评估。其影响力体现在为动漫风格角色生成领域提供了细粒度的数据基准,促进了生成模型在保持角色身份特征与多样化表现方面的技术进步。
当前挑战
该数据集旨在解决的领域挑战是动漫风格角色图像生成中角色身份一致性与姿态、服饰多样性难以兼顾的问题。具体而言,模型需要从有限且风格不一的同人作品中,学习并稳定生成具有可识别核心特征(如发色、瞳色、特定装饰)的角色形象。在构建过程中,挑战主要源于数据采集与处理环节:从多个来源(如Danbooru、Pixiv)自动化爬取的图像在画风、质量、标签体系上存在显著异质性,需要进行有效的去重、质量筛选和标准化标注;同时,对角色核心标签的修剪与聚类,要求算法能精准识别并保留与角色定义强相关的视觉属性,排除干扰性或不相关的标签,以确保数据集的纯净度与实用性。
常用场景
经典使用场景
在动漫风格图像生成领域,CyberHarem/raiden_shogun_genshin数据集以其精心标注的《原神》角色雷电将军图像,为文本到图像生成模型提供了高质量的微调素材。该数据集通过系统化采集与标签聚类,能够有效支持生成对抗网络(GAN)和扩散模型在特定角色特征上的风格化训练,尤其在保持角色标志性外观如紫色长发、和服装饰等细节方面展现出卓越的适用性。
解决学术问题
该数据集针对动漫图像生成中角色一致性保持的学术难题,提供了结构化的解决方案。通过精确的视觉特征标注与多场景图像聚类,它助力研究者突破生成模型在跨姿态、跨服饰条件下角色身份稳定性的技术瓶颈,推动了可控图像合成领域在细粒度属性绑定方面的理论进展,为数字内容创作自动化奠定了数据基础。
衍生相关工作
基于该数据集的结构化标注体系,衍生出了多项针对动漫角色生成的创新研究。例如,结合标签聚类结果的属性解耦生成方法、基于角色核心特征的跨域风格迁移技术,以及利用多源图像提升生成模型鲁棒性的训练框架。这些工作进一步拓展了可控文本到图像合成在垂直领域的应用边界,形成了从数据构建到模型优化的完整技术脉络。
以上内容由遇见数据集搜集并总结生成



