five

CyberHarem/iroha_bluearchive

收藏
Hugging Face2024-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/iroha_bluearchive
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个名为iroha/棗イロハ/伊吕波 (Blue Archive)的数据集,包含500张图片及其标签。数据集的核心标签包括红发、长发、光环、灰眼睛、头发遮住眼睛、帽子、鸭舌帽、黑色头饰、超长发、波浪发、军帽,这些标签在数据集中被修剪。图片从多个网站(如danbooru, pixiv, zerochan等)爬取,爬取系统由DeepGHS团队提供支持。数据集提供了多个版本的下载链接,包括原始数据、1200像素限制的数据集以及一个三阶段裁剪的数据集。此外,README还提供了如何使用waifuc加载原始数据集的代码示例,并展示了标签聚类的结果。

这是一个名为iroha/棗イロハ/伊吕波 (Blue Archive)的数据集,包含500张图片及其标签。数据集的核心标签包括红发、长发、光环、灰眼睛、头发遮住眼睛、帽子、鸭舌帽、黑色头饰、超长发、波浪发、军帽,这些标签在数据集中被修剪。图片从多个网站(如danbooru, pixiv, zerochan等)爬取,爬取系统由DeepGHS团队提供支持。数据集提供了多个版本的下载链接,包括原始数据、1200像素限制的数据集以及一个三阶段裁剪的数据集。此外,README还提供了如何使用waifuc加载原始数据集的代码示例,并展示了标签聚类的结果。
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集名称

  • 名称: iroha/棗イロハ/伊吕波 (Blue Archive)

数据集内容

  • 内容: 包含500张图像及其标签。
  • 核心标签: red_hair, long_hair, halo, grey_eyes, hair_between_eyes, hat, peaked_cap, black_headwear, very_long_hair, wavy_hair, military_hat

数据集来源

  • 来源: 图像从多个网站爬取,如danbooru, pixiv, zerochan等。
  • 爬取系统: 由DeepGHS Team提供技术支持。

数据集版本与下载

名称 图像数量 大小 下载链接 类型 描述
raw 500 819.37 MiB 下载 Waifuc-Raw 原始数据,包含元信息(如果图像较大,最小边对齐至1400像素)。
1200 500 673.48 MiB 下载 IMG+TXT 数据集,短边不超过1200像素。
stage3-p480-1200 1337 1.40 GiB 下载 IMG+TXT 三阶段裁剪数据集,区域不小于480x480像素。

数据集使用

  • 加载工具: 使用waifuc加载原始数据集。

  • 加载示例: python import os import zipfile from huggingface_hub import hf_hub_download from waifuc.source import LocalSource

    zip_file = hf_hub_download(repo_id=CyberHarem/iroha_bluearchive, repo_type=dataset, filename=dataset-raw.zip) dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir) source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])

数据集标签集群

  • 集群列表: 提供了标签集群的结果,可能包含可挖掘的服装信息。
  • 集群示例:
    • 集群0: 包含5张图像,主要标签包括1girl, black_dress, blush等。
    • 集群1: 包含9张图像,主要标签包括1girl, black_shirt, blush等。
    • 集群2: 包含12张图像,主要标签包括1girl, armband, jacket等。
    • 集群3: 包含13张图像,主要标签包括1girl, armband, black_shirt等。
    • 集群4: 包含6张图像,主要标签包括1girl, blush, looking_at_viewer等。
    • 集群5: 包含17张图像,主要标签包括1boy, 1girl, blush等。
搜集汇总
数据集介绍
main_image_url
构建方式
在动漫角色图像数据集的构建领域,CyberHarem/iroha_bluearchive数据集聚焦于《碧蓝档案》中的角色伊吕波,其构建过程体现了系统化的数据采集与处理。该数据集通过自动化爬虫系统,从Danbooru、Pixiv、Zerochan等多个知名动漫艺术平台广泛搜集原始图像,初始汇集了500幅标注图像。随后,数据经过精心修剪,移除了角色核心标签如红发、光环等,以确保数据集的多样性与泛化性。进一步地,数据集提供了三种不同处理版本:原始数据保留元信息与高分辨率图像;1200像素版本对图像短边进行标准化;三阶段裁剪版本则通过面积不低于480x480像素的裁剪,扩充至1337幅图像,增强了数据在训练中的可用性。
特点
该数据集在动漫角色生成任务中展现出鲜明的特色,其核心在于精细的标签体系与多层次的数据结构。数据集不仅包含丰富的视觉图像,还附带了详细的元标签信息,如服装、姿态、背景等描述性标签,这些标签经过聚类分析,形成了多个主题簇,例如女仆装、军装等,便于研究者进行风格化挖掘。图像质量经过优化,提供了从原始高分辨率到标准化尺寸的多种格式,兼顾了视觉细节与计算效率。此外,数据集特别强调了角色的一致性,所有图像均围绕同一角色展开,这为训练稳定可控的文本到图像生成模型提供了高质量、高一致性的素材,在艺术创作与角色建模研究中具有独特价值。
使用方法
在计算机视觉与生成式人工智能研究中,该数据集为文本到图像生成任务提供了便捷的应用途径。用户可通过Hugging Face平台直接下载压缩包,获得IMG+TXT格式的数据,其中文本文件包含标签信息,可直接用于模型训练。对于需要更高级元数据操作的研究者,数据集支持通过Waifuc工具加载原始数据,该工具允许访问图像的完整标签与文件信息,便于自定义处理流程。在实际应用中,研究者可根据需求选择不同版本:原始版本适合需要高分辨率图像的任务;标准化版本利于统一输入尺寸;裁剪版本则能提供更多样化的训练样本。这种灵活的使用方式,使得数据集能够适配从基础实验到复杂模型训练的多层次研究需求。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的时代,角色特异性图像数据集对于风格化文本到图像模型的训练至关重要。CyberHarem/iroha_bluearchive数据集由DeepGHS团队构建,专注于手机游戏《蔚蓝档案》中的角色“伊吕波”。该数据集收录了500幅图像及其标注,核心研究问题在于为特定动漫风格角色提供高质量、多姿态、多服饰的视觉素材,以支持个性化内容生成模型的微调与评估,推动了二次元艺术生成领域的精细化发展。
当前挑战
该数据集旨在解决动漫风格角色图像生成中的细粒度控制挑战,要求模型能够精确理解并生成特定角色的复杂视觉属性组合,如发色、瞳色、服饰配件等。在构建过程中,挑战主要源于数据收集与处理:需要从多个异构平台(如Danbooru、Pixiv)自动化爬取图像,并确保图像质量、标注一致性及版权合规性;同时,对核心标签进行筛选与修剪以突出角色特征,并在多尺度裁剪与格式转换中保持视觉信息的完整性,这些步骤均需精密的工程化处理。
常用场景
经典使用场景
在动漫风格图像生成领域,该数据集作为特定角色伊吕波的视觉资料库,为文本到图像生成模型提供了高质量的标注训练样本。其经典使用场景集中于训练生成对抗网络或扩散模型,以学习该角色的标志性特征,如红色长发、灰色眼眸及军帽等细节,从而实现从文本描述到精确视觉呈现的自动化生成。
解决学术问题
该数据集通过提供结构化的图像-标签对,有效解决了动漫角色生成中细粒度属性控制与风格一致性的学术难题。它支持研究如何利用标签信息引导模型生成特定服饰、姿态或场景的图像,为可控生成、多模态学习及数据高效利用等研究方向提供了实证基础,推动了个性化内容生成技术的发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在动漫风格生成模型的优化与扩展上。例如,基于标签聚类结果的研究探索了角色多服饰场景的生成方法;同时,该数据集常被整合至更大规模的动漫图像训练集中,用于提升模型对复杂角色特征的解耦能力,相关成果在Waifuc等数据工具及多个开源生成项目中得到应用与验证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作