five

CyberHarem/seele_starrail

收藏
Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/seele_starrail
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是关于《崩坏:星穹铁道》中的角色Seele(希儿)的图像数据集,包含344张图像及其标签。图像从多个网站(如danbooru、pixiv、zerochan等)爬取,并由DeepGHS团队提供技术支持。数据集的核心标签包括`long_hair, bangs, purple_hair, hair_between_eyes, purple_eyes, ahoge, breasts, blue_hair, blue_eyes`。数据集提供了不同尺寸和裁剪方式的图像包,并支持通过Waifuc工具加载原始数据集。此外,数据集还包含了标签聚类结果,展示了不同标签组合下的图像样本。

该数据集是关于《崩坏:星穹铁道》中的角色Seele(希儿)的图像数据集,包含344张图像及其标签。图像从多个网站(如danbooru、pixiv、zerochan等)爬取,并由DeepGHS团队提供技术支持。数据集的核心标签包括`long_hair, bangs, purple_hair, hair_between_eyes, purple_eyes, ahoge, breasts, blue_hair, blue_eyes`。数据集提供了不同尺寸和裁剪方式的图像包,并支持通过Waifuc工具加载原始数据集。此外,数据集还包含了标签聚类结果,展示了不同标签组合下的图像样本。
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集名称: seele/ゼーレ/希儿/제레 (Honkai: Star Rail)

数据集内容: 包含344张图像及其标签。

核心标签: long_hair, bangs, purple_hair, hair_between_eyes, purple_eyes, ahoge, breasts, blue_hair, blue_eyes

数据集来源: 图像从多个网站(如danbooru, pixiv, zerochan等)自动爬取,爬虫系统由DeepGHS Team提供。

数据集包详情

包名 图像数量 大小 类型 描述
raw 344 584.32 MiB Waifuc-Raw 原始数据,包含元信息,最小边对齐到1400像素(如果更大)。
800 344 300.34 MiB IMG+TXT 短边不超过800像素的数据集。
stage3-p480-800 838 633.55 MiB IMG+TXT 三阶段裁剪数据集,区域不小于480x480像素。
1200 344 499.59 MiB IMG+TXT 短边不超过1200像素的数据集。
stage3-p480-1200 838 950.56 MiB IMG+TXT 三阶段裁剪数据集,区域不小于480x480像素。

数据集加载示例

使用waifuc加载原始数据集的示例代码:

python import os import zipfile

from huggingface_hub import hf_hub_download from waifuc.source import LocalSource

下载原始档案文件

zip_file = hf_hub_download( repo_id=CyberHarem/seele_starrail, repo_type=dataset, filename=dataset-raw.zip, )

提取文件到目录

dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)

使用waifuc加载数据集

source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])

标签聚类结果

数据集提供了标签聚类结果,部分聚类结果可能包含特定的服装信息。以下是部分聚类结果的示例:

# 样本数 标签
0 6 1girl, bare_shoulders, closed_mouth, holding_sword, solo, gloves, butterfly, looking_at_viewer
1 32 1girl, solo, bare_shoulders, simple_background, white_background, closed_mouth, looking_at_viewer, scarf, cleavage, gloves
2 5 1girl, night_sky, solo, very_long_hair, bare_shoulders, black_gloves, butterfly, cleavage, covered_navel, fingerless_gloves, looking_at_viewer, medium_breasts, starry_sky, black_shorts, closed_mouth, cowboy_shot, detached_sleeves, outdoors, short_shorts, white_leotard, flower, full_moon, petals, purple_scarf, smile, thighs
3 15 2girls, simple_background, white_background, bare_shoulders, yuri, gloves, blush, closed_mouth, grey_hair, closed_eyes
4 11 2girls, bare_shoulders, black_gloves, closed_mouth, fingerless_gloves, black_shorts, looking_at_viewer, multicolored_hair, scarf, smile, white_dress
5 13 nipples, 1girl, navel, looking_at_viewer, two-tone_hair, completely_nude, colored_inner_hair, large_breasts, medium_breasts, blush, indoors, closed_mouth, collarbone, solo, stomach, window, bed, cowboy_shot, open_mouth
6 11 1boy, 1girl, hetero, penis, solo_focus, blush, large_breasts, nipples, open_mouth, sex, cum_in_pussy, looking_at_viewer, vaginal, mosaic_censoring, nude, girl_on_top, navel, straddling, sweat, multicolored_hair, pov, spread_legs
搜集汇总
数据集介绍
main_image_url
构建方式
在动漫角色图像数据集的构建领域,CyberHarem/seele_starrail数据集聚焦于《崩坏:星穹铁道》中的角色“希儿”。该数据集通过自动化爬虫系统,从Danbooru、Pixiv、Zerochan等多个知名艺术社区系统性地采集原始图像,共整合344幅图像及其对应标签。构建过程中,对核心角色标签进行了剪枝处理,并依据不同分辨率需求生成了多种规格的数据包,包括原始尺寸、短边不超过800像素或1200像素的版本,以及经过三阶段裁剪、确保区域不小于480x480像素的增强版本,从而为文本到图像生成任务提供了结构化的多模态数据基础。
特点
该数据集在动漫艺术图像数据中展现出鲜明的专项性,专注于单一角色“希儿”的多样化视觉呈现。其核心特征在于提供了多分辨率与多处理阶段的数据变体,满足不同模型训练对图像尺寸与质量的差异化需求。数据集附有详尽的元标签信息,并提供了基于标签聚类的分析结果,将图像按视觉特征划分为七个簇,例如包含特定服饰、场景或互动的群组,这为深入理解角色视觉元素的分布与关联提供了结构化洞察。此外,数据集明确标注了部分内容不适合所有受众,体现了对数据内容边界的审慎界定。
使用方法
在计算机视觉与生成式人工智能的研究中,该数据集主要服务于文本到图像生成模型的训练与微调。研究人员可通过Hugging Face Hub直接下载不同预处理规格的压缩包,获取图像与文本标签对。对于需要原始元数据的高级应用,数据集支持使用Waifuc工具库进行加载,通过提供的Python代码示例,可便捷地提取并遍历图像文件及其丰富的标签元信息。数据集中提供的聚类信息可用于分析角色形象的常见视觉模式,或作为数据筛选与子集构建的依据,以支持针对性更强的模型训练任务。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的时代,角色图像数据集对于训练高质量的文本到图像模型至关重要。CyberHarem/seele_starrail数据集由DeepGHS团队构建,专注于《崩坏:星穹铁道》中的角色“希儿”。该数据集通过自动化爬虫系统从Danbooru、Pixiv等知名艺术社区采集了344张图像及对应标签,并进行了核心标签修剪与多尺度处理。其核心研究问题在于为特定动漫风格角色提供高质量、多姿态的标注图像资源,以支持个性化角色生成与风格化图像合成的研究与应用,对二次元内容生成领域具有重要的数据支撑价值。
当前挑战
该数据集旨在解决动漫风格角色图像生成中的特定化建模挑战,其核心在于如何从有限且风格多样的同人艺术作品中,精准捕捉并表征“希儿”这一角色的稳定视觉特征,同时处理艺术表现中的高度多样性。在构建过程中,挑战主要集中于多源数据采集的异构性整合,包括不同平台图像在分辨率、画风与标签体系上的差异;以及自动化标注系统在复杂视觉元素(如发型、服饰细节)和敏感内容识别上的精度问题,这要求数据清洗与标准化流程具备高度的鲁棒性与语义理解能力。
常用场景
经典使用场景
在动漫艺术与计算机视觉交叉领域,该数据集作为高质量动漫角色图像与文本标签的集合,为文本到图像生成模型的训练提供了专门素材。其经典使用场景聚焦于动漫风格图像的生成与风格迁移研究,通过精心标注的视觉特征标签,如发色、服饰、姿态等,使生成模型能够学习到角色希儿的特定视觉属性,从而在生成任务中实现高保真度的角色再现。
衍生相关工作
围绕该数据集,已衍生出多项专注于动漫风格生成的经典研究工作。例如,基于其多阶段裁剪数据构建的模型在细节保持与构图优化方面表现出色;利用其标签聚类结果进行属性解耦的研究,则推动了可控生成模型的发展。这些工作不仅拓展了文本到图像生成技术在垂直领域的应用深度,也为后续的动漫角色生成、风格化渲染等任务提供了重要的技术参考与评估基准。
数据集最近研究
最新研究方向
在动漫风格图像生成领域,CyberHarem/seele_starrail数据集聚焦于《崩坏:星穹铁道》角色希儿的视觉艺术数据,其前沿研究正深入探索基于深度学习的风格化角色生成与精细化标签系统构建。随着生成对抗网络与扩散模型在动漫图像合成中的广泛应用,该数据集通过多源采集与多尺度裁剪策略,为角色一致性保持与细节增强提供了关键训练资源。研究热点集中于利用此类高质量标注数据提升生成模型的语义控制能力,例如通过标签聚类实现角色服饰、姿态与场景的精准解耦,进而推动个性化内容创作与跨模态艺术生成的发展。这一方向不仅促进了二次元文化在数字艺术中的技术革新,也为游戏角色设计与虚拟偶像产业提供了可扩展的数据驱动解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作