CyberHarem/kamiya_kaoru_rurounikenshin2023
收藏Hugging Face2024-05-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/kamiya_kaoru_rurounikenshin2023
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是关于《神谷薫/神谷薫 (浪客剑心2023)》的,包含462张图片及其标签。图片从多个网站(如danbooru、pixiv、zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集的核心标签包括`black_hair, long_hair, blue_eyes, bow, hair_bow, sidelocks, ponytail`。此外,README还提供了数据集的下载链接、加载方法以及标签聚类结果的展示。
该数据集是关于《神谷薫/神谷薫 (浪客剑心2023)》的,包含462张图片及其标签。图片从多个网站(如danbooru、pixiv、zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集的核心标签包括`black_hair, long_hair, blue_eyes, bow, hair_bow, sidelocks, ponytail`。此外,README还提供了数据集的下载链接、加载方法以及标签聚类结果的展示。
提供机构:
CyberHarem
原始信息汇总
数据集概述
基本信息
- 名称: Kamiya Kaoru/神谷薫 (Rurouni Kenshin (2023))
- 内容: 包含462张图像及其标签。
- 核心标签: black_hair, long_hair, blue_eyes, bow, hair_bow, sidelocks, ponytail
- 许可证: MIT
- 任务类别: text-to-image
- 标签: art, not-for-all-audiences
- 大小类别: n<1K
数据集内容
- 图像来源: 从多个网站爬取,如danbooru, pixiv, zerochan等。
- 自动爬取系统: 由DeepGHS Team提供技术支持。
数据集包
| 名称 | 图像数量 | 大小 | 下载链接 | 类型 | 描述 |
|---|---|---|---|---|---|
| raw | 462 | 370.58 MiB | 下载 | Waifuc-Raw | 包含元信息的原始数据,最小边对齐至1400像素(如果更大)。 |
| stage3-p480-1200 | 911 | 666.70 MiB | 下载 | IMG+TXT | 三阶段裁剪数据集,区域不小于480x480像素。 |
加载方法
-
使用工具: waifuc
-
加载代码示例: python import os import zipfile
from huggingface_hub import hf_hub_download from waifuc.source import LocalSource
下载原始档案文件
zip_file = hf_hub_download( repo_id=CyberHarem/kamiya_kaoru_rurounikenshin2023, repo_type=dataset, filename=dataset-raw.zip, )
提取文件至目录
dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)
使用waifuc加载数据集
source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])
集群列表
- 集群示例:
- 集群0: 包含5个样本,标签包括1girl, blue_kimono, cloud, day, outdoors, pink_bow, solo, looking_at_viewer等。
- 集群1: 包含5个样本,标签包括1girl, blue_kimono, open_mouth, pink_bow, solo, anime_coloring, portrait, blue_hair, looking_at_viewer等。
- 集群2: 包含5个样本,标签包括1girl, :d, blue_hair, blue_kimono, looking_at_viewer, obi, open_mouth, solo, upper_body, own_hands_clasped, pink_bow等。
- 集群3: 包含7个样本,标签包括1girl, anime_coloring, blue_bow, pink_kimono, solo, upper_body, closed_mouth等。
- 集群4: 包含8个样本,标签包括1girl, obi, solo, blue_kimono, pink_bow, sitting, yukata等。
- 集群5: 包含7个样本,标签包括1girl, obi, pink_kimono, night, outdoors, solo_focus等。
- 集群6: 包含7个样本,标签包括1girl, blue_kimono, holding, obi, outdoors, pink_bow, solo_focus, long_sleeves, standing, blurry等。
- 集群7: 包含10个样本,标签包括1girl, anime_coloring, japanese_clothes, solo, indoors, portrait, collarbone, open_mouth, looking_at_viewer等。
- 集群8: 包含6个样本,标签包括1boy, 1girl, kimono, open_mouth, anime_coloring, solo_focus, close-up等。
- 集群9: 包含6个样本,标签包括1girl, anime_coloring, clenched_teeth, solo, sweatdrop, kimono, red_bow, portrait等。
- 集群10: 包含6个样本,标签包括1girl, autumn_leaves, blue_kimono, blurry_background, leaf, outdoors, pink_bow, solo, closed_mouth, portrait, smile, tree等。
- 集群11: 包含9个样本,标签包括1girl, outdoors, profile, solo, open_mouth, blue_kimono, from_side, upper_body, blurry_background, holding, sweatdrop, anime_coloring, tree, wisteria等。
- 集群12: 包含15个样本,标签包括1girl, solo, holding_weapon, shinai, bokken, hakama_skirt等。
- 集群13: 包含5个样本,标签包括2girls, closed_mouth, from_side, profile, 1girl, red_hair, kimono, solo_focus等。
搜集汇总
数据集介绍

构建方式
在动漫角色图像数据集的构建领域,本数据集聚焦于《浪客剑心(2023)》中的神谷薰角色,其构建过程体现了系统化的数据采集与处理流程。通过自动化爬虫系统,从Danbooru、Pixiv、Zerochan等多个知名动漫艺术平台广泛搜集图像素材,共计整合462幅原始图像。每幅图像均附有详细的元数据标签,核心特征标签如黑发、长发、蓝眸等经过精心筛选与修剪,确保数据集的纯净度与一致性。原始图像在保持高分辨率的前提下进行边缘对齐处理,最小边长统一调整至1400像素,为后续的模型训练奠定了高质量的视觉基础。
特点
该数据集在动漫角色图像数据集中展现出鲜明的结构化特征与丰富的语义标注层次。除了提供包含完整元数据的原始版本外,还特别推出了经过三阶段裁剪处理的增强版本,该版本包含911张图像,每张图像均确保有效区域不低于480x480像素,显著提升了数据在训练中的可用性。数据集的核心价值在于其精细的标签体系,不仅包含角色固有属性,还涵盖了场景、动作、服饰等上下文信息。更值得一提的是,数据集通过聚类分析呈现了多个视觉主题簇,如不同着色的和服、特定场景下的姿态等,这为深入挖掘角色在不同叙事语境下的视觉表现规律提供了宝贵的结构化洞察。
使用方法
针对文本生成图像的研究与应用,本数据集提供了灵活多样的加载与使用途径。研究者可通过Hugging Face Hub直接下载原始数据包或预处理后的裁剪版本。对于需要利用完整元数据进行高级分析的用户,推荐使用配套的Waifuc工具库进行加载:首先从仓库下载原始压缩文件,解压至本地目录后,通过LocalSource接口即可便捷地遍历访问每幅图像及其关联的标签信息。这种设计使得数据集既能直接服务于需要图像-文本对的标准深度学习管道,也能支持基于元数据的复杂筛选、分析与二次处理,为动漫风格生成模型的训练与评估提供了高度适配的数据基础。
背景与挑战
背景概述
在动漫角色图像生成领域,针对特定角色的高质量数据集对于训练个性化生成模型至关重要。CyberHarem/kamiya_kaoru_rurounikenshin2023数据集由DeepGHS团队于2023年构建,专注于《浪客剑心(2023)》中的角色神谷薰。该数据集汇集了来自Danbooru、Pixiv、Zerochan等多个平台的462幅图像及其标注,核心研究问题在于解决动漫角色图像生成中特定角色的风格一致性与细节还原难题。通过提供精细的标签聚类与裁剪处理,该数据集为动漫艺术生成与角色定制化模型的研究提供了重要资源,推动了文本到图像生成技术在二次元文化领域的应用深度。
当前挑战
该数据集旨在解决动漫角色图像生成中特定角色的高保真生成挑战,包括维持角色外观特征的一致性、复杂服饰与姿态的准确还原,以及跨艺术风格的适应性建模。在构建过程中,面临多重挑战:首先,从多源平台爬取图像需处理版权差异与数据格式不统一问题;其次,自动标注系统需精准识别角色的核心特征(如黑发、蓝眼、发饰等),避免标签噪声;此外,图像预处理中需平衡裁剪尺寸与细节保留,确保生成模型训练的输入质量。这些挑战共同影响了数据集的规模扩展与标注精度。
常用场景
经典使用场景
在动漫角色图像生成领域,该数据集聚焦于《浪客剑心(2023)》中的神谷薰角色,通过462张标注图像及其标签,为文本到图像生成模型提供了高质量的微调素材。其经典使用场景在于训练生成对抗网络或扩散模型,以精准捕捉角色的视觉特征,如黑发、蓝眼、和服装扮等核心属性,从而生成风格一致且细节丰富的动漫角色图像。
解决学术问题
该数据集针对动漫角色生成中数据稀缺与标注一致性的学术难题,提供了经过清洗和聚类的结构化图像资源。它解决了生成模型在特定角色特征保持上的挑战,如服饰、姿态和表情的准确还原,为研究细粒度图像生成、跨域风格迁移以及标签驱动的可控生成提供了实验基础,推动了动漫艺术生成领域的算法创新。
衍生相关工作
围绕该数据集,衍生出多项经典研究工作,包括基于标签聚类的角色属性分析、多阶段裁剪的图像增强方法,以及结合waifuc工具的数据流水线优化。这些工作进一步推动了动漫图像数据集的标准化构建,并为后续角色专属生成模型如LoRA适配器的开发提供了技术参考,促进了社区开源工具的生态发展。
以上内容由遇见数据集搜集并总结生成



