five

CyberHarem/murata_himeko_honkai3

收藏
Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/murata_himeko_honkai3
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为murata_himeko (Houkai 3rd),包含500张图片及其标签。图片从多个网站(如danbooru、pixiv、zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集的核心标签包括red_hair, bangs, yellow_eyes, breasts, large_breasts, long_hair, mole, mole_on_breast,这些标签在数据集中被修剪。README还提供了数据集的多个版本及其下载链接,以及如何使用waifuc加载原始数据集的示例代码。此外,README还列出了标签聚类结果,展示了不同聚类的样本图片和标签。

该数据集名为murata_himeko (Houkai 3rd),包含500张图片及其标签。图片从多个网站(如danbooru、pixiv、zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集的核心标签包括red_hair, bangs, yellow_eyes, breasts, large_breasts, long_hair, mole, mole_on_breast,这些标签在数据集中被修剪。README还提供了数据集的多个版本及其下载链接,以及如何使用waifuc加载原始数据集的示例代码。此外,README还列出了标签聚类结果,展示了不同聚类的样本图片和标签。
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集信息

  • 名称: Dataset of murata_himeko (Houkai 3rd)
  • 描述: 包含500张图片及其标签的数据集。
  • 核心标签: red_hair, bangs, yellow_eyes, breasts, large_breasts, long_hair, mole, mole_on_breast

数据集包列表

名称 图片数量 大小 类型 描述
raw 500 719.66 MiB Waifuc-Raw 包含元信息的原始数据(最小边对齐到1400像素,如果更大)。
800 500 381.11 MiB IMG+TXT 短边不超过800像素的数据集。
stage3-p480-800 1171 803.56 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。
1200 500 619.92 MiB IMG+TXT 短边不超过1200像素的数据集。
stage3-p480-1200 1171 1.14 GiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。

标签聚类结果

原始文本版本

# 样本数量 标签
0 22 1girl, bare_shoulders, solo, wedding_dress, white_dress, bridal_veil, bride, red_rose, smile, cleavage, hair_flower, looking_at_viewer, white_gloves, closed_mouth, petals, holding, simple_background, elbow_gloves, sleeveless, white_background, white_thighhighs
1 6 1girl, bare_shoulders, closed_mouth, looking_at_viewer, solo, cleavage, hair_ornament, smile, earrings, holding_sword, red_gloves
2 10 1girl, solo, black_gloves, boots, black_shorts, cleavage, red_jacket, thighhighs, belt, closed_mouth, holding_sword, sleeves_rolled_up, looking_at_viewer, smile, fire, aiguillette, cropped_jacket, full_body, short_shorts
3 5 1girl, cleavage, closed_mouth, looking_at_viewer, simple_background, smile, solo, white_background, black_gloves, forehead, red_jacket
4 11 1girl, solo, cleavage, looking_at_viewer, smile, bare_shoulders, closed_mouth, lipstick, forehead, simple_background, white_background, hair_ornament, china_dress, red_dress
5 16 black_bikini, cleavage, looking_at_viewer, smile, 1girl, solo, closed_mouth, sleeves_rolled_up, white_shirt, black_choker, navel, one_eye_closed, simple_background, alcohol, see-through, side-tie_bikini_bottom, sitting
6 17 1boy, hetero, penis, 1girl, open_mouth, blush, nipples, looking_at_viewer, dark-skinned_male, solo_focus, mosaic_censoring, navel, pussy, sweat, completely_nude, spread_legs, tongue_out, ass, cum, indoors, parted_bangs, sex_from_behind, vaginal
搜集汇总
数据集介绍
main_image_url
构建方式
在数字艺术与游戏角色视觉素材的构建领域,针对《崩坏3》中“无量塔姬子”这一经典角色,CyberHarem团队精心打造了一个包含500张图像及其对应标签的专业数据集。该数据集通过自动爬取系统从Danbooru、Pixiv、Zerochan等多个知名艺术平台采集原始图像,并依托DeepGHS团队的技术支持实现了高效的自动化抓取。在数据预处理阶段,团队对核心角色标签如红发、刘海、黄眼、巨乳、长发及痣等进行了精细化的剪枝处理,以确保标签的准确性与针对性。最终,数据集以多种分辨率版本(如800、1200像素)及三级裁剪版本(stage3-p480-800与stage3-p480-1200)的形式呈现,为用户提供了灵活的选择空间。
特点
该数据集的核心特色在于其多维度、多层次的构建策略,充分满足了文本到图像生成任务对高质量训练数据的严苛需求。数据集不仅保留了原始图像的元信息(raw版本),还提供了统一尺寸的标准化版本(800与1200像素),便于直接用于模型训练。尤为突出的是,团队创新性地引入了三级裁剪技术,生成了面积不小于480x480像素的裁剪版本,有效增强了图像局部特征的多样性。此外,数据集附带了详尽的标签聚类结果,通过可视化样本与结构化表格揭示了角色在不同着装(如婚纱、泳装、战斗服)和场景下的风格分布,为研究者挖掘角色多模态特征提供了宝贵线索。
使用方法
使用者可通过Hugging Face Hub便捷地获取该数据集,并依据具体需求选择不同的数据包。对于希望保留原始图像与标签完整性的用户,推荐使用raw版本,并结合Waifuc库进行加载——通过下载dataset-raw.zip压缩包并解压至本地目录,即可利用LocalSource接口迭代访问图像及其元数据。而追求高效训练的用户,则可直接采用800或1200像素的标准化版本,或选用三级裁剪版本以提升模型对局部细节的感知能力。所有数据包均以IMG+TXT格式组织,兼容主流深度学习框架,极大简化了数据预处理流程。
背景与挑战
背景概述
在文本到图像生成领域,高质量、细粒度的角色数据集对于训练能够忠实还原特定角色特征的模型至关重要。CyberHarem/murata_himeko_honkai3 数据集由 DeepGHS 团队于近期创建,聚焦于《崩坏3》中的人气角色“无量塔姬子”。该数据集通过自动化爬取系统从 Danbooru、Pixiv、Zerochan 等多个知名插画社区收集了 500 张高质量图像,并配备了详细的标签信息。其核心研究问题在于如何为二次元角色构建一个兼具多样性与一致性的训练资源,以支持基于扩散模型的角色定制生成任务。该数据集不仅提供了原始图像及元数据,还包含了多种分辨率与裁剪版本,极大便利了不同规模与需求的模型训练,对推动动漫风格文本到图像生成的发展具有重要参考价值。
当前挑战
该数据集所面临的挑战首先体现在领域问题的复杂性上:二次元角色生成需要模型精确捕捉诸如发型、瞳色、服饰等细节特征,同时保持不同画风与姿态下的身份一致性,这对训练数据的覆盖度与标签准确性提出了极高要求。其次,在构建过程中,从多个来源自动爬取图像会引入版权与内容合规性问题,例如数据集中出现的不适宜公众观看的成人内容(如 cluster 6 所示),需要在发布时进行严格筛选与分类。此外,自动标签系统可能产生噪声或遗漏,如何高效清洗与校验标签,以及如何平衡不同分辨率与裁剪方案以适配多种模型架构,也是实际构建中必须克服的技术难点。
常用场景
经典使用场景
在动漫角色生成与风格迁移领域,CyberHarem/murata_himeko_honkai3数据集为文本到图像(text-to-image)任务提供了精良的素材支撑。该数据集汇聚了500张《崩坏3》角色“无量塔姬子”的高质量图像及其对应标签,涵盖婚纱、战斗服、泳装等多种经典造型。研究者可借助其多尺度裁剪版本(如800px、1200px)进行模型微调与条件生成,通过核心标签(如red_hair、long_hair、mole_on_breast)精准控制角色外观,从而在扩散模型(如Stable Diffusion)中复现或创新角色的视觉风格。
衍生相关工作
该数据集衍生出多项经典工作,如基于Waifuc框架的自动化数据流水线,实现了从爬取、标注到多阶段裁剪的端到端处理。其聚类标签(如wedding_dress、black_bikini)启发了服饰风格迁移与角色穿搭推荐的研究。此外,结合CyberHarem系列数据集,研究者已开展跨角色属性迁移、少样本风格学习等任务,推动了开源社区在动漫生成领域的基准构建与模型评估,促进了文本到图像技术在亚文化场景中的落地与创新。
数据集最近研究
最新研究方向
在二次元角色图像生成领域,该数据集聚焦于《崩坏3》中角色“无量塔姬子”的精细化视觉表征学习。当前研究前沿致力于利用高分辨率、多尺度裁剪的图文对数据,推动基于扩散模型的文本到图像生成技术在动漫风格角色上的精准复现。该数据集提供的500张经过严格标签清洗的原始图像及其多分辨率版本,为探索角色核心属性(如红发、痣、服装变体)与场景语义之间的耦合关系提供了优质资源。结合自动爬取与标签聚类分析,研究热点正转向如何通过结构化标签体系提升生成模型对特定角色身份与姿态的保真度,其在虚拟偶像创作、游戏资产自动化生产等领域的应用潜力,正催生对细粒度角色数据集构建规范与评估基准的迫切需求。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作