CyberHarem/guinaifen_starrail

Name: CyberHarem/guinaifen_starrail
Creator: CyberHarem
Published: 2024-01-13 09:34:04
License: 暂无描述

Hugging Face2024-01-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CyberHarem/guinaifen_starrail

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个名为guinaifen/桂乃芬/桂乃芬/계네빈 (Honkai: Star Rail)的数据集，包含59张图片及其标签。图片从多个网站（如danbooru、pixiv、zerochan等）爬取，爬取系统由DeepGHS团队提供支持。数据集的核心标签包括`long_hair, hair_ornament, yellow_eyes, bangs, breasts, hair_between_eyes, side_ponytail, hair_flower`。此外，还提供了不同版本的下载链接，包括原始数据、不同尺寸的图片数据集以及3阶段裁剪的数据集。最后，还提供了如何使用waifuc加载原始数据集的代码示例，并展示了标签聚类结果的示例。

提供机构：

CyberHarem

原始信息汇总

数据集概述

数据集名称

Dataset of guinaifen/桂乃芬/桂乃芬/계네빈 (Honkai: Star Rail)

数据集描述

该数据集包含59张图像及其标签，主要围绕角色guinaifen/桂乃芬/桂乃芬/계네빈（崩坏：星穹铁道）。图像来源于多个网站，如danbooru、pixiv、zerochan等。

核心标签

long_hair
hair_ornament
yellow_eyes
bangs
breasts
hair_between_eyes
side_ponytail
hair_flower

数据集包列表

名称	图像数量	大小	类型	描述
raw	59	104.26 MiB	Waifuc-Raw	包含元信息的原始数据（如果较大，最小边对齐到1400）。
800	59	49.55 MiB	IMG+TXT	短边不超过800像素的数据集。
stage3-p480-800	140	107.08 MiB	IMG+TXT	3阶段裁剪数据集，区域不小于480x480像素。
1200	59	88.28 MiB	IMG+TXT	短边不超过1200像素的数据集。
stage3-p480-1200	140	170.53 MiB	IMG+TXT	3阶段裁剪数据集，区域不小于480x480像素。

标签聚类结果

原始文本版本

#	样本数量	图像1	图像2	图像3	图像4	图像5	标签
0	17						1girl, open_mouth, looking_at_viewer, solo, :d, black_gloves, white_background, bare_shoulders, simple_background, orange_hair, red_dress, chinese_clothes, choker, flower, blush

表格版本

#	样本数量	图像1	图像2	图像3	图像4	图像5	1girl	open_mouth	looking_at_viewer	solo	:d	black_gloves	white_background	bare_shoulders	simple_background	orange_hair	red_dress	chinese_clothes	choker	flower	blush
0	17						X	X	X	X	X	X	X	X	X	X	X	X	X	X	X

搜集汇总

数据集介绍

构建方式

在二次元角色图像数据集构建领域，针对《崩坏：星穹铁道》中角色桂乃芬（guinaifen）的视觉特征，本数据集通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个图像平台搜集原始素材。爬取引擎由DeepGHS团队开发，确保了数据采集的高效性与覆盖面。原始图像经过预处理，包括将最小边长对齐至1400像素以保留细节，随后提供多种分辨率版本（如800、1200像素限制）以及三级裁剪版本（区域不小于480x480像素），以适应不同训练需求。数据集共包含59张图像及对应的标签信息，核心标签如长发、发饰、黄眼等被精简提取，便于下游任务使用。

特点

该数据集以角色桂乃芬为核心，围绕其标志性外观特征构建，具有高度的主题专一性。图像来源多样，覆盖多个主流二次元图库，保证了视觉风格的丰富性。数据集提供了多种格式的压缩包，包括原始元数据版本（raw）、标准化尺寸版本（800、1200）以及经过三级裁剪增强的版本（stage3-p480-800、stage3-p480-1200），其中裁剪版本通过扩充样本数量至140张，显著提升了数据多样性。此外，数据集还包含标签聚类结果，以表格和文本形式展示了不同着装或场景下的标签组合，为风格迁移或条件生成任务提供了结构化参考。

使用方法

使用该数据集时，用户可根据需求选择相应压缩包。若需加载原始图像及其元数据，推荐使用waifuc框架：首先通过huggingface_hub下载dataset-raw.zip并解压至本地目录，随后利用LocalSource从该目录加载数据，每个数据项包含图像、文件名及标签列表，便于进行自定义训练或分析。对于标准训练流程，可直接使用800或1200像素版本的IMG+TXT格式包，无需额外处理。裁剪版本适用于需要固定输入尺寸的模型，其三级裁剪策略可有效减少背景干扰，聚焦角色主体。建议结合角色核心标签进行过滤或增强，以优化生成效果。

背景与挑战

背景概述

在生成式人工智能与二次元文化交融的浪潮中，角色图像数据集成为驱动文本到图像模型精准创作的关键基石。由DeepGHS团队于近期构建的CyberHarem/guinaifen_starrail数据集，聚焦于《崩坏：星穹铁道》中人气角色桂乃芬，系统收录了59张来自Danbooru、Pixiv等多元平台的高质量图像及其语义标签。该数据集的核心使命在于为文本到图像生成任务提供精细化的角色视觉语料，通过标注长髮、髮饰、黄瞳、侧马尾等关键特征，助力模型捕捉角色标志性外观的细微差异。作为开源社区在游戏角色数据集领域的重要实践，它推动了二次元生成模型从泛化创作向特定角色精准复现的演进，为角色一致性生成研究奠定了数据基础。

当前挑战

当前数据集面临的核心挑战在于领域问题的复杂性：文本到图像生成中，模型需从有限样本中学习角色在姿态、服饰、背景多变下的稳定视觉表征，而59张图像的数量对捕捉角色完整视觉多样性构成显著制约。构建过程中，挑战体现为多源数据整合的异质性——来自不同平台的图像在分辨率、构图风格及标签规范上存在差异，需通过自动爬取系统进行标准化处理。此外，数据集的裁剪策略（如三级裁剪与像素阈值设定）需在保留角色完整性与适应生成模型输入要求间取得平衡，而标签冗余（如核心标签的剪枝）与细粒度特征（如特定服饰变体）的取舍，进一步增加了数据清洗的难度。

常用场景

经典使用场景

在文本到图像生成领域，CyberHarem/guinaifen_starrail数据集为基于扩散模型的二次元角色定制化生成提供了宝贵的训练素材。该数据集聚焦于《崩坏：星穹铁道》中的角色桂乃芬，收录了59张经过精细标注的高质量图像，涵盖多种姿态与服饰变体。研究者可将其用于训练LoRA（Low-Rank Adaptation）或DreamBooth等微调技术，从而在不改变预训练大模型核心能力的前提下，高效学习特定角色的视觉特征与风格范式，实现精准的角色再现与风格迁移。

解决学术问题

该数据集有效缓解了动漫角色生成研究中高质量标注数据稀缺的痛点。学术领域长期面临角色概念漂移与多模态对齐难题，即模型难以在保持背景多样性的同时稳定生成指定角色的面部特征、服饰细节与标志性配饰。通过提供包含核心标签（如侧马尾、发花、中式服装）的多尺度图像包（如480×480裁剪版），该数据集支持研究者系统性地探究条件控制生成中标签粒度与图像分辨率对角色保真度的影响，为构建更鲁棒的角色条件生成模型奠定了数据基础。

衍生相关工作

该数据集催生了一系列围绕角色身份保持的生成研究。例如，基于其标签聚类结果（如红裙、黑手套簇），研究者开发了动态提示词融合策略，在Stable Diffusion框架中实现了多角色交互场景的生成。相关工作还包括利用该数据集验证标签剪枝策略对生成质量的影响，以及将其与多视角渲染数据结合，构建从二维插画到三维姿态迁移的跨模态生成管线。这些衍生工作进一步凸显了高质量垂直领域数据集在推动可控图像生成技术从通用向专业化演进中的基石作用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集