CyberHarem/lynette_genshin
收藏Hugging Face2024-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/lynette_genshin
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为lynette/リネット/琳妮特 (Genshin Impact)的数据集,包含500张图片及其标签。数据集的核心标签包括动物耳朵、猫耳朵、猫女孩、紫色眼睛、弓、面部标记、长发、尾巴、猫尾巴、灰发、胸部、动物耳朵绒毛、水弓等。图片从多个网站爬取,如danbooru、pixiv、zerochan等,爬取系统由DeepGHS团队提供。数据集分为多个包,包括原始数据包、1200像素限制的数据包和3阶段裁剪的数据包。此外,还提供了如何使用waifuc加载原始数据集的代码示例。最后,README还列出了标签聚类结果,展示了不同聚类的图片示例和标签。
这是一个名为lynette/リネット/琳妮特 (Genshin Impact)的数据集,包含500张图片及其标签。数据集的核心标签包括动物耳朵、猫耳朵、猫女孩、紫色眼睛、弓、面部标记、长发、尾巴、猫尾巴、灰发、胸部、动物耳朵绒毛、水弓等。图片从多个网站爬取,如danbooru、pixiv、zerochan等,爬取系统由DeepGHS团队提供。数据集分为多个包,包括原始数据包、1200像素限制的数据包和3阶段裁剪的数据包。此外,还提供了如何使用waifuc加载原始数据集的代码示例。最后,README还列出了标签聚类结果,展示了不同聚类的图片示例和标签。
提供机构:
CyberHarem
原始信息汇总
数据集概述
数据集基本信息
- 名称: Dataset of lynette/リネット/琳妮特 (Genshin Impact)
- 许可: MIT
- 任务类别: text-to-image
- 标签: art, not-for-all-audiences
- 大小类别: n<1K
数据集内容
- 图像数量: 500张
- 核心标签: animal_ears, cat_ears, cat_girl, purple_eyes, bow, facial_mark, long_hair, tail, cat_tail, grey_hair, breasts, animal_ear_fluff, aqua_bow
数据集包列表
| 名称 | 图像数量 | 大小 | 类型 | 描述 |
|---|---|---|---|---|
| raw | 500 | 1019.91 MiB | Waifuc-Raw | 原始数据,包含元信息(最小边对齐到1400像素,如果更大)。 |
| 1200 | 500 | 851.61 MiB | IMG+TXT | 数据集,短边不超过1200像素。 |
| stage3-p480-1200 | 1327 | 1.65 GiB | IMG+TXT | 3阶段裁剪数据集,区域不小于480x480像素。 |
标签聚类结果
原始文本版本
| # | 样本数量 | 图像示例 | 标签 |
|---|---|---|---|
| 0 | 7 | ![]() |
1girl, black_gloves, card, long_sleeves, looking_at_viewer, small_breasts, solo, star_(symbol), black_dress, black_pantyhose, cleavage, two-tone_gloves, holding, star_facial_mark, braid, closed_mouth, leotard |
| 1 | 6 | ![]() |
1girl, black_pantyhose, closed_mouth, long_sleeves, looking_at_viewer, solo, star_(symbol), two-tone_gloves, black_footwear, boots, holding_card, cleavage, star_facial_mark, black_dress, brown_pantyhose, medium_breasts, sitting |
| 2 | 35 | ![]() |
1girl, long_sleeves, looking_at_viewer, solo, star_(symbol), black_dress, star_facial_mark, two-tone_gloves, closed_mouth, black_pantyhose, huge_bow, black_footwear, facial_tattoo, boots, black_gloves, cleavage, medium_breasts |
| 3 | 17 | ![]() |
1girl, star_(symbol), blush, nipples, star_facial_mark, hetero, penis, 1boy, looking_at_viewer, solo_focus, open_mouth, sex, vaginal, medium_breasts, navel, pussy, completely_nude, mosaic_censoring, black_pantyhose, cum, pov, spread_legs, torn_pantyhose |
表格版本
| # | 样本数量 | 图像示例 | 1girl | black_gloves | card | long_sleeves | looking_at_viewer | small_breasts | solo | star_(symbol) | black_dress | black_pantyhose | cleavage | two-tone_gloves | holding | star_facial_mark | braid | closed_mouth | leotard | black_footwear | boots | holding_card | brown_pantyhose | medium_breasts | sitting | huge_bow | facial_tattoo | blush | nipples | hetero | penis | 1boy | solo_focus | open_mouth | sex | vaginal | navel | pussy | completely_nude | mosaic_censoring | cum | pov | spread_legs | torn_pantyhose |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 7 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | |||||||||||||||||||||||||
| 1 | 6 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | |||||||||||||||||||||||||
| 2 | 35 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | |||||||||||||||||||||||||
| 3 | 17 | ![]() |
X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X | X |
搜集汇总
数据集介绍

构建方式
在动漫艺术与游戏角色生成领域,数据集的构建需兼顾图像质量与标注精度。本数据集聚焦于《原神》角色琳妮特,通过自动化爬虫系统从Danbooru、Pixiv、Zerochan等主流艺术平台采集原始图像,并采用边缘对齐技术将图像最小边统一调整至1400像素以上,确保视觉一致性。随后,对图像进行核心标签提取与修剪,保留如“猫耳”、“紫色瞳孔”、“长尾”等角色特征标签,形成包含元信息的原始数据包。整个过程依托DeepGHS团队的算法支持,实现了高效、结构化的数据聚合。
特点
该数据集以角色为中心,突出多维度的结构化特征。其核心在于精细的标签体系,不仅涵盖角色外观属性如发色、服饰细节,还包含动作、场景及艺术风格标注,为图像生成模型提供丰富的语义引导。数据集提供三种预处理版本:原始数据包保留完整元信息;分辨率优化版本将短边限制在1200像素内以平衡质量与效率;三阶段裁剪版本则确保图像区域不低于480×480像素,增强训练稳定性。此外,通过聚类分析展示标签组合模式,例如不同服饰与姿态的关联性,为角色深度挖掘提供可视化参考。
使用方法
针对文本到图像生成任务,本数据集支持灵活的技术集成。用户可通过HuggingFace Hub直接下载预处理后的图像-文本对,快速接入主流深度学习框架。对于需要原始元数据的研究,可利用Waifuc工具加载本地解压的归档文件,遍历图像对象并调用标签字段进行定制化处理。数据集的聚类结果可辅助角色服饰或姿态的细分研究,例如通过标签共现规律优化提示词设计。在实际应用中,建议结合版本特性选择数据:高分辨率版本适用于细节生成,裁剪版本则利于批量训练与模型泛化。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的时代,针对特定虚拟角色的高质量图像数据集成为驱动风格化文本到图像生成模型训练的关键资源。CyberHarem/lynette_genshin数据集应运而生,专注于《原神》游戏中的角色“琳妮特”,由DeepGHS团队构建并发布于HuggingFace平台。该数据集收录了500幅经过精心筛选与标注的图像,核心目标在于为角色特征鲜明的动漫风格图像生成提供精准、结构化的训练样本,以促进生成模型在捕捉特定角色外观、服饰及姿态等细粒度属性方面的能力提升。
当前挑战
该数据集致力于解决动漫风格角色图像生成中,对特定角色进行高保真、多样化视觉还原的挑战,其核心在于如何精确建模角色的标志性特征(如猫耳、灰色长发、特定服饰)并生成符合角色设定的新图像。在构建过程中,挑战主要集中于多源网络图像数据的自动化爬取与清洗,需有效处理来自不同平台的图像在质量、分辨率、标签一致性上的巨大差异;同时,对角色核心标签进行有效修剪与聚类,以平衡数据的代表性与多样性,并确保标注信息能够准确反映视觉内容,避免噪声引入模型训练。
常用场景
经典使用场景
在动漫风格图像生成领域,该数据集聚焦于《原神》角色琳妮特的视觉呈现,通过精心标注的500张图像及其标签,为文本到图像生成模型提供了高质量的微调素材。其核心价值在于捕捉角色标志性特征,如猫耳、紫色眼眸与灰色长发,使生成模型能够精准还原角色设定,满足二次元艺术创作中对角色一致性与细节保真的需求。
解决学术问题
该数据集针对动漫角色生成中存在的风格漂移与特征失准问题,提供了结构化的解决方案。通过爬取多平台图像并实施标签修剪,它有效缓解了生成模型在跨域数据上的过拟合现象,促进了细粒度属性控制技术的发展。其意义在于为角色中心化生成任务建立了可复现的基准,推动了生成式人工智能在特定美学范式下的可解释性与可控性研究。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于动漫风格迁移与标签驱动生成领域。例如,基于Waifuc工具链的自动化处理流程优化了原始数据的预处理效率;同时,其聚类分析结果启发了后续研究对角色服饰与姿态的语义解耦方法,为可控生成对抗网络在二次元图像合成中的应用提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成







