CyberHarem/nahida_genshin

Name: CyberHarem/nahida_genshin
Creator: CyberHarem
Published: 2024-03-22 19:28:04
License: 暂无描述

Hugging Face2024-03-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CyberHarem/nahida_genshin

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于《原神》角色纳西妲（Nahida）的数据集，包含500张图片及其标签。核心标签包括长头发、多色头发、尖耳朵、白色头发、头发装饰、渐变头发、绿色眼睛、符号形状的瞳孔、侧马尾、绿色头发、眼睛间的头发、十字形瞳孔、叶子头发装饰、侧发等。图片来源于多个网站（如danbooru、pixiv、zerochan等），并由DeepGHS团队提供自动爬取系统。数据集提供了多个版本，包括原始数据、1200像素版本和三阶段裁剪版本，并提供了如何使用waifuc加载原始数据集的代码示例。此外，还列出了标签聚类结果，展示了不同聚类的样本图片和标签。

提供机构：

CyberHarem

原始信息汇总

数据集概述

名称: Dataset of nahida/ナヒーダ/纳西妲 (Genshin Impact)

内容: 包含500张图像及其标签。

核心标签: long_hair, multicolored_hair, pointy_ears, white_hair, hair_ornament, gradient_hair, green_eyes, symbol-shaped_pupils, side_ponytail, green_hair, hair_between_eyes, cross-shaped_pupils, leaf_hair_ornament, sidelocks

数据来源: 图像从多个网站爬取，如danbooru, pixiv, zerochan等，爬虫系统由DeepGHS Team提供。

许可: MIT

任务类别: text-to-image

标签: art, not-for-all-audiences

大小类别: n<1K

数据集包列表

名称	图像数量	大小	类型	描述
raw	500	1.29 GiB	Waifuc-Raw	原始数据，包含元信息，最小边对齐至1400像素（如果更大）。
1200	500	1.05 GiB	IMG+TXT	短边不超过1200像素的数据集。
stage3-p480-1200	1398	2.13 GiB	IMG+TXT	三阶段裁剪数据集，区域不小于480x480像素。

集群列表

#	样本数	标签（部分）
0	5	1girl, bracelet, closed_mouth, detached_sleeves, sitting, sleeveless_dress, smile, solo, toeless_footwear, white_dress, green_cape, looking_at_viewer, outdoors, stirrup_legwear, swing, toes, white_bloomers, bare_shoulders, forest, green_sleeves, short_sleeves, white_footwear
1	8	1girl, bracelet, detached_sleeves, green_cape, looking_at_viewer, sleeveless_dress, solo, white_bloomers, white_dress, toeless_footwear, white_background, braid, closed_mouth, full_body, simple_background, grey_hair, short_sleeves, smile, butterfly, standing, bare_shoulders, blush, hand_up, toes
2	10	1girl, bracelet, cape, detached_sleeves, looking_at_viewer, short_sleeves, solo, white_dress, braid, :d, bloomers, open_mouth, sleeveless_dress, stirrup_legwear, depth_of_field, full_body, toes
3	11	1girl, looking_at_viewer, sleeveless_dress, solo, white_dress, bracelet, detached_sleeves, short_sleeves, simple_background, white_background, open_mouth, cape, braid, grey_hair, :d, upper_body, blush, two-tone_hair
4	12	1girl, detached_sleeves, feet, sleeveless_dress, solo, toes, white_dress, bare_shoulders, bracelet, looking_at_viewer, no_shoes, stirrup_legwear, white_socks, full_body, soles, :d, blush, open_mouth, gold_trim, outdoors, sitting, tree, cape, nature, swing, white_bloomers, legs
5	7	1girl, bracelet, butterfly, detached_sleeves, sleeveless_dress, solo, white_dress, looking_at_viewer, green_cape, bare_shoulders, parted_lips, sitting, green_sleeves
6	6	1girl, bare_shoulders, bracelet, detached_sleeves, outdoors, sitting_in_tree, sleeveless_dress, solo, white_dress, bloomers, branch, toes, butterfly, green_cape, stirrup_legwear, parted_lips, short_sleeves, toeless_footwear

搜集汇总

数据集介绍

构建方式

在动漫角色图像数据集的构建领域，CyberHarem/nahida_genshin数据集通过自动化爬虫系统，从Danbooru、Pixiv、Zerochan等多个知名艺术社区系统性地采集了500幅纳西妲（《原神》角色）的视觉素材。原始图像经过预处理，确保较长边对齐至1400像素以维持视觉一致性，同时移除了角色核心标签（如长发、渐变发色、尖耳等），以优化数据集的多样性与泛化潜力。这一流程依托DeepGHS团队的自动化工具实现，体现了数据采集的规模化和标准化特征。

特点

该数据集在动漫风格图像生成任务中展现出鲜明的结构化特点。其核心在于提供了三种不同处理版本：原始数据包保留完整元信息与标签；尺寸优化版本将短边限制在1200像素内以平衡质量与效率；三阶段裁剪版本则通过面积不低于480x480像素的裁剪策略，扩展至1398个样本，增强了细节表现力。此外，数据集附带了基于标签聚类的结果展示，通过视觉样本与特征标记的对应表格，直观揭示了角色在不同服饰、姿态与场景下的分布规律，为风格分析与模型训练提供了细粒度参考。

使用方法

针对文本到图像生成的研究与应用，该数据集支持多种加载方式。用户可直接下载压缩包获取图像与标签文本，或利用提供的Waifuc工具链进行高效处理。通过Hugging Face Hub接口下载原始数据包后，使用LocalSource模块即可加载图像及其元数据（包括文件名与标签），便于后续的模型微调或特征提取。数据集的聚类分析表格亦能辅助研究者识别视觉模式，例如针对特定服饰或构图进行定向训练，从而提升生成模型在动漫角色刻画上的准确性与多样性。

背景与挑战

背景概述

在数字艺术与生成式人工智能的交叉领域，角色特定图像数据集的构建对于推动文本到图像生成技术的发展具有关键意义。CyberHarem/nahida_genshin数据集由DeepGHS团队创建，专注于《原神》游戏中的角色纳西妲（Nahida），旨在为角色驱动的视觉内容生成提供高质量的标注图像资源。该数据集收录了500张经过精心筛选与标注的图像，涵盖了角色的多样化视觉特征，如发型、服饰细节与姿态等，其核心价值在于为生成模型提供结构化的训练数据，以提升角色一致性与细节还原能力。通过整合来自Danbooru、Pixiv等平台的众源内容，该数据集反映了当代二次元文化在人工智能艺术生成中的实践应用，为角色定制化生成任务提供了重要的数据基础。

当前挑战

该数据集致力于解决角色特定图像生成中的关键挑战，即如何在生成过程中保持角色视觉特征的高度一致性与细节丰富性。具体而言，挑战包括准确捕捉纳西妲的复杂视觉属性（如渐变发色、十字形瞳孔等），并确保生成图像在多样姿态与场景下仍能维持角色辨识度。在构建过程中，数据收集面临众源平台图像质量参差不齐、标签噪声与版权合规性等问题；同时，数据预处理需平衡图像分辨率与标注精度，例如通过多阶段裁剪策略优化训练效率，但可能引入细节损失或上下文信息不完整等局限。此外，数据集的规模相对有限，可能影响模型在复杂场景下的泛化能力与创造性表达。

常用场景

经典使用场景

在动漫风格图像生成领域，CyberHarem/nahida_genshin数据集作为特定角色纳西妲的视觉资料库，为文本到图像生成模型提供了精准的训练素材。该数据集通过精心标注的500张图像及其结构化标签，使研究人员能够探索角色特征与视觉表现之间的映射关系，尤其在风格一致性、细节还原和姿态多样性方面展现出独特价值。其多尺寸版本的设计，进一步支持了从基础生成到高分辨率优化的全流程实验。

解决学术问题

该数据集针对动漫角色生成中存在的语义对齐不足、风格漂移等问题提供了解决方案。通过提供高精度标注的角色图像，它助力于研究视觉特征与文本描述的细粒度关联，推动了可控图像生成技术的发展。在跨域风格迁移、长尾属性学习等方向，数据集的结构化标签为量化评估生成质量建立了可靠基准，显著提升了生成模型在特定角色刻画上的准确性与艺术表现力。

衍生相关工作

围绕该数据集衍生的研究多集中于动漫风格生成模型的优化与评估。例如基于标签聚类的角色属性解耦研究，探索了视觉特征与语义标签的分布式表示；在跨模态对齐方面，相关工作利用数据集的精细标注改进了文本提示与图像细节的关联机制。此外，数据集的多尺度版本为分辨率增强、局部编辑等技术提供了验证平台，推动了生成模型在专业艺术创作领域的实用化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集