five

CyberHarem/naganami_kantaicollection

收藏
Hugging Face2024-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/naganami_kantaicollection
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为naganami/長波 (Kantai Collection),包含500张图片及其标签。图片从多个网站(如danbooru、pixiv、zerochan等)爬取,并由DeepGHS团队提供技术支持。数据集的核心标签包括长头发、黑头发、多色头发、粉红头发、双色头发、黄眼睛、胸部、波浪头发、大胸部、尖牙、丝带、蝴蝶结、发带等。此外,README还提供了数据集的下载链接和加载方法,以及标签聚类结果的列表。
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集名称

Dataset of naganami/長波 (Kantai Collection)

数据集描述

该数据集包含500张图片及其标签,主题为naganami/長波(舰队收藏)。

核心标签

  • long_hair
  • black_hair
  • multicolored_hair
  • pink_hair
  • two-tone_hair
  • yellow_eyes
  • breasts
  • wavy_hair
  • large_breasts
  • fang
  • ribbon
  • bow
  • hair_ribbon

数据来源

图片从多个网站(如danbooru、pixiv、zerochan等)爬取,爬取系统由DeepGHS Team开发。

数据集包列表

名称 图片数量 大小 类型 描述
raw 500 609.20 MiB Waifuc-Raw 包含元信息的原始数据(最小边对齐到1400像素,如果更大)
800 500 355.96 MiB IMG+TXT 短边不超过800像素的数据集
stage3-p480-800 1253 798.39 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素
1200 500 541.85 MiB IMG+TXT 短边不超过1200像素的数据集
stage3-p480-1200 1253 1.08 GiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素

标签聚类结果

原始文本版本

# 样本数量 图片示例 标签
0 10 [示例图片] 1girl, long_sleeves, looking_at_viewer, school_uniform, simple_background, solo, white_background, white_shirt, blush, open_mouth, smile, upper_body, aqua_bowtie, purple_dress, sleeveless_dress, bangs, halterneck
1 10 [示例图片] 1girl, looking_at_viewer, open_mouth, school_uniform, solo, long_sleeves, bowtie, dress, grey_pantyhose, white_shirt, simple_background, white_background, :d, halterneck
... ... ... ...

表格版本

# 样本数量 图片示例 1girl long_sleeves looking_at_viewer school_uniform simple_background solo white_background white_shirt 其他标签
0 10 [示例图片] X X X X X X X X [详细标签]
1 10 [示例图片] X X X X X X X X [详细标签]
... ... ... ... ... ... ... ... ... ... ... ...
搜集汇总
数据集介绍
main_image_url
构建方式
在动漫角色数据集构建领域,针对《舰队Collection》中的角色“长波”(naganami),本数据集通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个图像托管站点采集了500幅高质量图像。采集过程由DeepGHS团队开发的自动爬取管道驱动,确保了来源的多样性与覆盖度。原始图像经过预处理,将最小边对齐至1400像素以保留细节。随后,数据集被整理为多种规格:包括短边不超过800或1200像素的标准版本,以及采用三阶段裁剪策略、确保裁剪区域不小于480×480像素的增强版本,以适应不同训练需求。核心角色标签(如长发、黑发、双色发等)已在数据集中精简,便于下游任务直接使用。
使用方法
本数据集提供了便捷的加载方式。用户可通过Hugging Face Hub直接下载各版本的ZIP压缩包。对于希望保留完整元信息的用户,推荐使用waifuc库加载RAW版本:首先通过`hf_hub_download`函数下载`dataset-raw.zip`,解压至本地目录后,利用`LocalSource`即可迭代访问每张图像及其对应的文件名与标签列表。该接口支持灵活的批量处理,便于集成到PyTorch或TensorFlow的训练流水线中。此外,标签聚类结果以表格形式呈现,可直接用于分析角色在不同装扮下的视觉分布,或作为多模态学习的先验知识。
背景与挑战
背景概述
在二次元角色图像生成领域,高质量的特定角色数据集对于训练文本到图像模型至关重要。由DeepGHS团队于近年创建的CyberHarem/naganami_kantaicollection数据集,聚焦于《舰队Collection》中的角色“長波”,收录了500张经过精细标注的图像。该数据集的核心研究问题在于如何通过自动化爬取与标签修剪,为特定虚构角色构建一个干净、高一致性的视觉与语义资源库,以支撑下游的扩散模型微调与风格迁移任务。其影响力体现在为同人艺术与游戏角色生成提供了标准化数据基础,推动了动漫风格文本到图像生成技术的发展。
当前挑战
该数据集面临的挑战首先体现在领域问题上:动漫角色图像生成要求模型精准捕捉角色标志性特征(如双色发、虎牙、蝴蝶结等),而原始网络来源的图像风格多样、背景杂乱,需通过标签修剪与多级裁剪(如stage3-p480-800)来提升特征一致性。构建过程中的挑战则包括:从danbooru、pixiv等多站点自动爬取时需处理版权与内容审核问题;图像尺寸不一、质量参差,需设计如min edge对齐和三级裁剪的标准化流程;标签系统需平衡详实性与冗余性,核心标签的筛选与聚类(如校服、泳装等变体)依赖于半自动化工具(如Waifuc),人工干预成本较高。
常用场景
经典使用场景
该数据集专为文本到图像生成任务而设计,聚焦于《舰队Collection》中的角色“长波”(naganami),收录了500张高质量图像及其对应的标签。其经典使用场景在于作为动漫角色定制化生成模型的训练素材,尤其适用于基于扩散模型的微调(如Stable Diffusion),通过标签与图像的配对学习,使模型能够精准捕捉角色的核心特征(如双色发、虎牙、蝴蝶结等),从而生成风格统一且细节忠实的新图像。
解决学术问题
该数据集有效解决了动漫角色图像生成中数据稀缺与标注不一致的学术难题。在二次元图像生成领域,高质量、多风格的角色数据集极度匮乏,而手工标注成本高昂。此数据集通过自动化爬取与标签清洗,提供了标准化的图像-文本对,为研究角色特征解耦、多模态对齐、以及少样本学习提供了可靠基准,推动了可控图像生成与个性化模型微调方法的进步。
实际应用
在实际应用中,该数据集广泛服务于二次元内容创作与游戏产业,支持虚拟角色立绘的快速生成、同人插图的风格迁移,以及角色换装系统的开发。例如,内容创作者可基于此数据集微调生成模型,批量产出特定角色在不同服饰或场景下的图像,大幅降低人工绘制成本。此外,其多分辨率与裁剪版本(如stage3-p480-800)适配了不同计算资源,便于集成到实际流水线中。
数据集最近研究
最新研究方向
在当前文生图模型蓬勃发展的浪潮中,针对特定动漫角色的精细化数据构建成为前沿热点。该数据集聚焦于《舰队Collection》中的角色“長波”,通过多源爬取(如Danbooru、Pixiv)与自动化清洗技术,提供了500张高质图像及其标签,并创新性地引入了多尺度裁剪版本(如stage3-p480-800)以适应不同训练需求。这一工作不仅推动了二次元角色定制化生成的研究,还通过标签聚类分析(如校服、泳装等服饰分组)为下游任务提供了结构化先验知识,其数据开源与标准化流程对社区生态具有显著示范效应。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作