CyberHarem/yano_erika_shirobako
收藏Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/yano_erika_shirobako
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-to-image
tags:
- art
- not-for-all-audiences
size_categories:
- n<1K
---
# Dataset of Yano Erika
This is the dataset of Yano Erika, containing 266 images and their tags.
Images are crawled from many sites (e.g. danbooru, pixiv, zerochan ...), the auto-crawling system is powered by [DeepGHS Team](https://github.com/deepghs)([huggingface organization](https://huggingface.co/deepghs)).
| Name | Images | Download | Description |
|:------------|---------:|:------------------------------------|:-------------------------------------------------------------------------|
| raw | 266 | [Download](dataset-raw.zip) | Raw data with meta information. |
| raw-stage3 | 580 | [Download](dataset-raw-stage3.zip) | 3-stage cropped raw data with meta information. |
| 384x512 | 266 | [Download](dataset-384x512.zip) | 384x512 aligned dataset. |
| 512x512 | 266 | [Download](dataset-512x512.zip) | 512x512 aligned dataset. |
| 512x704 | 266 | [Download](dataset-512x704.zip) | 512x704 aligned dataset. |
| 640x640 | 266 | [Download](dataset-640x640.zip) | 640x640 aligned dataset. |
| 640x880 | 266 | [Download](dataset-640x880.zip) | 640x880 aligned dataset. |
| stage3-640 | 580 | [Download](dataset-stage3-640.zip) | 3-stage cropped dataset with the shorter side not exceeding 640 pixels. |
| stage3-800 | 580 | [Download](dataset-stage3-800.zip) | 3-stage cropped dataset with the shorter side not exceeding 800 pixels. |
| stage3-1200 | 580 | [Download](dataset-stage3-1200.zip) | 3-stage cropped dataset with the shorter side not exceeding 1200 pixels. |
许可证:MIT协议
任务类别:
- 文本到图像(text-to-image)
标签:
- 艺术
- 不适用于全年龄段受众(not-for-all-audiences)
规模类别:
- 样本数少于1000(n<1K)
# 矢野绘里香(Yano Erika)数据集
本数据集为矢野绘里香(Yano Erika)相关数据集,包含266张图像及其标注标签。
本数据集的图像源自多个平台(如danbooru、pixiv、zerochan等),其自动爬取系统由DeepGHS团队([GitHub地址](https://github.com/deepghs))及Hugging Face官方组织([组织页面](https://huggingface.co/deepghs))提供技术支持。
| 数据集分支 | 图像数量 | 下载链接 | 描述说明 |
|:------------|---------:|:------------------------------------|:-------------------------------------------------------------------------|
| raw | 266 | [下载](dataset-raw.zip) | 包含元信息的原始数据集。 |
| raw-stage3 | 580 | [下载](dataset-raw-stage3.zip) | 经过3阶段裁剪并附带元信息的原始数据集。 |
| 384x512 | 266 | [下载](dataset-384x512.zip) | 分辨率对齐为384×512的数据集。 |
| 512x512 | 266 | [下载](dataset-512x512.zip) | 分辨率对齐为512×512的数据集。 |
| 512x704 | 266 | [下载](dataset-512x704.zip) | 分辨率对齐为512×704的数据集。 |
| 640x640 | 266 | [下载](dataset-640x640.zip) | 分辨率对齐为640×640的数据集。 |
| 640x880 | 266 | [下载](dataset-640x880.zip) | 分辨率对齐为640×880的数据集。 |
| stage3-640 | 580 | [下载](dataset-stage3-640.zip) | 经过3阶段裁剪的数据集,图像短边不超过640像素。 |
| stage3-800 | 580 | [下载](dataset-stage3-800.zip) | 经过3阶段裁剪的数据集,图像短边不超过800像素。 |
| stage3-1200 | 580 | [下载](dataset-stage3-1200.zip) | 经过3阶段裁剪的数据集,图像短边不超过1200像素。 |
提供机构:
CyberHarem
原始信息汇总
矢野絵里香数据集
概述
矢野絵里香数据集包含266张图片及其标签。图片从多个网站(如danbooru、pixiv、zerochan等)爬取。
数据集版本
| 名称 | 图片数量 | 下载链接 | 描述 |
|---|---|---|---|
| raw | 266 | Download | 包含元信息的原始数据。 |
| raw-stage3 | 580 | Download | 包含元信息的3阶段裁剪原始数据。 |
| 384x512 | 266 | Download | 384x512对齐数据集。 |
| 512x512 | 266 | Download | 512x512对齐数据集。 |
| 512x704 | 266 | Download | 512x704对齐数据集。 |
| 640x640 | 266 | Download | 640x640对齐数据集。 |
| 640x880 | 266 | Download | 640x880对齐数据集。 |
| stage3-640 | 580 | Download | 短边不超过640像素的3阶段裁剪数据集。 |
| stage3-800 | 580 | Download | 短边不超过800像素的3阶段裁剪数据集。 |
| stage3-1200 | 580 | Download | 短边不超过1200像素的3阶段裁剪数据集。 |
搜集汇总
数据集介绍

构建方式
在动漫艺术领域,高质量的角色图像数据集对于风格化生成模型的训练至关重要。该数据集通过自动化爬虫系统,从Danbooru、Pixiv、Zerochan等多个知名动漫艺术平台系统性地采集了266张矢野绘梨香角色的原始图像,并附有相应的标签信息。采集过程由DeepGHS团队开发的工具支持,确保了数据来源的广泛性与规范性。随后,原始数据经过多阶段处理,包括裁剪和对齐,生成了多种分辨率版本,如384x512、512x512等,以及经过三阶段裁剪并限制短边像素的增强版本,最终形成了包含580张图像的结构化集合,为模型训练提供了多尺度的视觉素材。
特点
该数据集的核心特征在于其精细的多分辨率与多阶段处理结构,专为文本到图像生成任务而优化。数据集不仅提供了原始图像与元数据,还包含了从384x512到640x880等多种标准对齐尺寸,以及经过三阶段裁剪、短边分别限制在640、800、1200像素的变体,共计九个版本,适应不同模型架构的输入需求。图像内容聚焦于矢野绘梨香这一特定动漫角色,标签信息完整,确保了数据在风格一致性上的高度集中。这种结构化设计使得研究者能够灵活选择数据子集,进行从基础到高级的生成实验,尤其在艺术风格迁移与角色定制化生成方面具有显著应用潜力。
使用方法
在计算机视觉与生成式人工智能研究中,该数据集可直接用于训练或微调文本到图像扩散模型。使用者首先根据模型需求下载相应版本,如标准对齐版本适用于固定尺寸训练,而三阶段裁剪版本则更适合多尺度或增强训练策略。图像与标签配对可用于监督学习,通过提示词引导生成特定风格的角色图像。数据集以压缩包形式提供,解压后可直接加载至常见深度学习框架。鉴于其内容特性,建议在符合伦理规范的学术或艺术创作环境中使用,避免不当传播,以尊重原创艺术版权与社区准则。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的背景下,高质量、主题明确的图像数据集成为推动文本到图像模型精细化训练的关键资源。CyberHarem/yano_erika_shirobako数据集应运而生,由DeepGHS团队构建并维护,专注于收录动漫角色‘矢野绘梨花’的视觉素材。该数据集汇集了从Danbooru、Pixiv等多个知名艺术社区自动爬取的266幅图像及其对应标签,旨在为角色特定风格的图像生成与理解研究提供结构化数据支持。其多分辨率版本的设计,进一步适配了不同架构生成模型的输入需求,体现了研究社区对数据可用性与模型适配性的持续关注。
当前挑战
该数据集致力于解决动漫角色特定风格图像生成这一细分领域的挑战,其核心在于如何从有限且风格多样的源图像中,精准学习并复现角色的一致性与艺术特征。在构建过程中,挑战主要集中于数据收集与处理环节:从多个异构平台进行自动化爬取需克服网站反爬机制与数据格式不统一的困难;确保图像质量与标签准确性的同时,还需进行多阶段裁剪与多种分辨率对齐,以平衡数据规模、处理复杂度与最终模型的训练效果。这些挑战凸显了在细分领域构建高质量、可直接用于模型训练的数据集所面临的技术与工程复杂性。
常用场景
经典使用场景
在动漫角色生成与风格化图像合成领域,CyberHarem/yano_erika_shirobako数据集以其精心标注的动漫角色图像,为文本到图像生成模型提供了高质量的微调素材。该数据集聚焦于特定动漫角色矢野艾莉卡,通过多尺寸对齐与裁剪版本,支持生成对抗网络和扩散模型在保持角色一致性、细节还原和艺术风格迁移方面的训练与评估,成为动漫艺术生成研究中的基准资源。
解决学术问题
该数据集针对动漫图像生成中角色特征保持与风格一致性难题,提供了结构化的解决方案。通过提供多分辨率对齐图像及标签,它助力研究者攻克文本引导下角色细节还原、姿态与表情控制等关键技术瓶颈,推动了可控图像生成算法的发展,并为动漫内容创作自动化研究奠定了数据基础。
衍生相关工作
围绕该数据集,已衍生出多项专注于动漫风格图像生成的经典研究工作。这些工作通常利用其对齐图像与标签,探索条件生成模型在角色定制化生成、多模态提示融合以及跨域风格迁移等方面的性能,进一步推动了文本到图像技术在动漫领域的算法创新与模型优化。
以上内容由遇见数据集搜集并总结生成



