five

CyberHarem/kris_pokemon

收藏
Hugging Face2024-01-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/kris_pokemon
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个名为kris/クリス (Pokémon)的数据集,包含425张图像及其标签。图像从多个网站(如danbooru、pixiv、zerochan等)爬取,爬取系统由DeepGHS团队开发。数据集的核心标签包括twintails, hat, bangs, long_hair, blue_hair, green_hair, yellow_headwear, blue_eyes, green_eyes, breasts,这些标签在数据集中被修剪。README还提供了数据集的多个版本及其下载链接,并展示了如何使用Waifuc加载原始数据集。此外,README还列出了标签聚类结果,展示了不同聚类的图像样本及其对应的标签。

This is the dataset of kris/クリス (Pokémon), containing 425 images and their tags. The images are crawled from many sites (e.g. danbooru, pixiv, zerochan ...), the auto-crawling system is powered by [DeepGHS Team](https://github.com/deepghs). The core tags of this character are `twintails, hat, bangs, long_hair, blue_hair, green_hair, yellow_headwear, blue_eyes, green_eyes, breasts`, which are pruned in this dataset. The dataset is divided into different packages with varying numbers of images and sizes, suitable for various purposes.
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集信息

  • 名称: Dataset of kris/クリス (Pokémon)
  • 描述: 包含425张图片及其标签的数据集。
  • 核心标签: twintails, hat, bangs, long_hair, blue_hair, green_hair, yellow_headwear, blue_eyes, green_eyes, breasts
  • 来源: 从多个网站(如danbooru, pixiv, zerochan等)爬取。
  • 许可证: MIT
  • 任务类别: text-to-image
  • 标签: art, not-for-all-audiences
  • 大小类别: n<1K

数据包列表

名称 图片数量 大小 类型 描述
raw 425 289.62 MiB Waifuc-Raw 包含元信息的原始数据(最小边对齐到1400像素,如果更大)。
800 425 209.29 MiB IMG+TXT 短边不超过800像素的数据集。
stage3-p480-800 683 354.24 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。
1200 425 271.02 MiB IMG+TXT 短边不超过1200像素的数据集。
stage3-p480-1200 683 440.02 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素。

标签聚类结果

原始文本版本

# 样本数量 图片示例 标签
0 9 1girl, bike_shorts, cropped_jacket, holding_poke_ball, long_sleeves, poke_ball_(basic), red_shirt, white_jacket, open_jacket, open_mouth, solo, :d, pokemon_(creature)
1 13 1girl, red_shirt, white_jacket, simple_background, upper_body, eyelashes, open_jacket, white_background, cropped_jacket, solo, :d, blush, open_mouth, long_sleeves, ^_^, closed_mouth, tongue
2 8 1girl, bike_shorts, holding_poke_ball, poke_ball_(basic), pokemon_(creature)
3 11 1girl, bike_shorts, smile, pokemon_(creature), open_mouth
4 7 1girl, cosplay, hat_ribbon, overalls, red_ribbon, star_earrings, solo, cabbie_hat, smile, blush, poke_ball_(basic), thighhighs
5 5 1girl, blush, solo, bike_shorts, one_eye_closed
6 8 1girl, hetero, penis, completely_nude, vaginal, 1boy, ass, blush, open_mouth, anus, medium_breasts, nipples, testicles, barefoot, bestiality, cum_in_pussy, pokemon_(creature), pokephilia, solo_focus, looking_back, sex_from_behind
7 27 official_alternate_costume, 1girl, aqua_eyes, aqua_hair, aqua_dress, bare_shoulders, choker, smile, wrist_cuffs, small_breasts, medium_hair, hair_ornament, halter_dress, shorts_under_dress, collarbone, side_slit, pokemon_(creature), looking_at_viewer, sandals, solo, white_background
搜集汇总
数据集介绍
main_image_url
构建方式
在动漫角色图像数据集的构建领域,CyberHarem/kris_pokemon数据集聚焦于宝可梦系列中的角色Kris(クリス)。该数据集通过自动化爬虫系统,从Danbooru、Pixiv、Zerochan等多个知名动漫艺术社区系统性地采集图像,共收录425幅原始图像及其对应标签。构建过程中,原始图像经过预处理,若长边超过1400像素则统一对齐至最小边1400像素,确保视觉一致性。同时,核心角色标签如双马尾、帽子等被精心筛选与修剪,以优化数据质量。这一流程体现了利用网络公开资源进行主题化图像聚合的典型方法。
使用方法
针对文本到图像生成等任务,该数据集提供了灵活的使用途径。研究人员可通过Hugging Face Hub直接下载各版本压缩包,解压后获得图像与文本标签对,便于集成至训练流程。对于需要原始元数据的场景,数据集支持通过Waifuc工具加载:使用huggingface_hub库下载原始压缩文件,本地解压后,利用LocalSource导入,即可遍历访问每幅图像的像素数据及完整的标签元信息。这种设计兼顾了即用性与可扩展性,使得数据集既能用于快速实验,也能支持深入的图像处理与标注分析工作。
背景与挑战
背景概述
在动漫角色图像生成与标注领域,特定角色的视觉数据收集与处理成为推动生成式人工智能发展的关键环节。CyberHarem/kris_pokemon数据集由DeepGHS团队构建,专注于宝可梦系列中的角色Kris(クリス),旨在为文本到图像生成模型提供高质量、细粒度的训练资源。该数据集收录了425张图像,并附有经过修剪的标签,涵盖了角色的核心视觉特征,如发型、服饰与配色等。其构建依托于自动化爬虫系统,从多个知名艺术社区获取图像,体现了在二次元文化数字化进程中,结构化视觉数据对于提升生成模型角色一致性与细节还原能力的重要价值。
当前挑战
该数据集致力于解决动漫角色图像生成中角色特征一致性与细节还原的挑战,尤其在多姿态、多服饰情境下保持视觉属性的稳定性。构建过程中面临多重困难:图像来源的异构性导致质量与风格差异显著,需通过尺寸归一化与裁剪策略进行标准化处理;标签体系的构建需平衡语义粒度与噪声控制,核心标签的修剪虽提升一致性,但可能损失部分上下文信息;此外,数据集中包含成人内容,对数据的合规使用与伦理审查提出了额外要求。这些挑战共同指向了动漫图像数据在规模扩展与质量控制之间的平衡难题。
常用场景
经典使用场景
在动漫角色图像生成领域,CyberHarem/kris_pokemon数据集以其精心标注的宝可梦角色“克里斯”图像集合,为文本到图像生成模型提供了高质量的微调素材。该数据集通过爬取Danbooru、Pixiv等平台的425张图像,并辅以结构化标签,使得研究人员能够针对特定动漫角色进行风格化图像生成的训练与评估,尤其在生成具有复杂服饰细节和角色特征的二次元图像方面展现出显著价值。
解决学术问题
该数据集有效缓解了动漫角色生成研究中高质量标注数据稀缺的困境,为细粒度角色属性控制、跨平台图像风格迁移等课题提供了基准资源。其多尺寸裁剪版本与聚类标签结构,支持了图像生成模型在保持角色一致性、解析复杂语义标签方面的算法优化,推动了生成对抗网络与扩散模型在动漫领域的可解释性与可控性研究。
实际应用
在实际应用中,该数据集常被用于动漫内容创作工具的开发,例如角色定制化生成系统、同人艺术辅助设计平台等。游戏与动画制作团队可借助此类数据训练辅助生成模型,快速产出角色变体或宣传素材;同时,其标签体系也为动漫图像检索与分类系统的优化提供了真实场景下的数据支撑。
数据集最近研究
最新研究方向
在动漫风格图像生成领域,CyberHarem/kris_pokemon数据集作为宝可梦角色“克丽丝”的专项图像集合,正推动着文本到图像生成技术的前沿探索。该数据集通过精细的标签标注与多尺度图像处理,为角色一致性生成、风格化属性控制等研究方向提供了高质量的训练资源。当前研究热点集中于利用此类标注数据提升生成模型对特定角色服饰、姿态及场景的细节还原能力,尤其在跨平台动漫创作社区中,其应用助力了个性化角色设计的自动化进程。这一进展不仅深化了生成式人工智能在二次元艺术领域的实践,也为数字内容创作的版权与伦理规范带来了新的讨论维度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作