CyberHarem/koganeikoyuzu_edomaeelf
收藏Hugging Face2023-09-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/koganeikoyuzu_edomaeelf
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-to-image
tags:
- art
- not-for-all-audiences
size_categories:
- n<1K
---
# Dataset of こがねいこゆず
This is the dataset of こがねいこゆず, containing 80 images and their tags.
Images are crawled from many sites (e.g. danbooru, pixiv, zerochan ...), the auto-crawling system is powered by [DeepGHS Team](https://github.com/deepghs)([huggingface organization](https://huggingface.co/deepghs)).
| Name | Images | Download | Description |
|:------------|---------:|:------------------------------------|:-------------------------------------------------------------------------|
| raw | 80 | [Download](dataset-raw.zip) | Raw data with meta information. |
| raw-stage3 | 182 | [Download](dataset-raw-stage3.zip) | 3-stage cropped raw data with meta information. |
| 384x512 | 80 | [Download](dataset-384x512.zip) | 384x512 aligned dataset. |
| 512x512 | 80 | [Download](dataset-512x512.zip) | 512x512 aligned dataset. |
| 512x704 | 80 | [Download](dataset-512x704.zip) | 512x704 aligned dataset. |
| 640x640 | 80 | [Download](dataset-640x640.zip) | 640x640 aligned dataset. |
| 640x880 | 80 | [Download](dataset-640x880.zip) | 640x880 aligned dataset. |
| stage3-640 | 182 | [Download](dataset-stage3-640.zip) | 3-stage cropped dataset with the shorter side not exceeding 640 pixels. |
| stage3-800 | 182 | [Download](dataset-stage3-800.zip) | 3-stage cropped dataset with the shorter side not exceeding 800 pixels. |
| stage3-1200 | 182 | [Download](dataset-stage3-1200.zip) | 3-stage cropped dataset with the shorter side not exceeding 1200 pixels. |
提供机构:
CyberHarem
原始信息汇总
こがねいこゆず数据集
概述
- 许可证: MIT
- 任务类别: 文本到图像
- 标签: 艺术, 不适合所有观众
- 规模类别: n<1K
数据集详情
- 包含内容: 80张图片及其标签
- 来源: 从多个网站爬取,如danbooru, pixiv, zerochan等
数据集版本
| 名称 | 图片数量 | 下载链接 | 描述 |
|---|---|---|---|
| raw | 80 | Download | 原始数据,包含元信息。 |
| raw-stage3 | 182 | Download | 3阶段裁剪的原始数据,包含元信息。 |
| 384x512 | 80 | Download | 384x512对齐的数据集。 |
| 512x512 | 80 | Download | 512x512对齐的数据集。 |
| 512x704 | 80 | Download | 512x704对齐的数据集。 |
| 640x640 | 80 | Download | 640x640对齐的数据集。 |
| 640x880 | 80 | Download | 640x880对齐的数据集。 |
| stage3-640 | 182 | Download | 3阶段裁剪的数据集,短边不超过640像素。 |
| stage3-800 | 182 | Download | 3阶段裁剪的数据集,短边不超过800像素。 |
| stage3-1200 | 182 | Download | 3阶段裁剪的数据集,短边不超过1200像素。 |
搜集汇总
数据集介绍

构建方式
在动漫角色数据集构建领域,高质量图像与标签的匹配至关重要。本数据集以角色“こがねいこゆず”为核心,通过自动化爬取系统从Danbooru、Pixiv、Zerochan等多个知名图站收集原始图像,共收录80张图片及其对应标签。系统由DeepGHS团队开发,确保了采集过程的稳定性与效率。为满足不同训练需求,数据集提供了多种规格的预处理版本:包括原始元数据文件、经三阶段裁剪的衍生数据(182张),以及多种分辨率对齐版本(如384x512、512x512、640x640等)。三阶段裁剪版本依据短边尺寸限制(640/800/1200像素)进一步优化,兼顾图像细节保留与数据统一性。
特点
该数据集兼具专业性与灵活性,其核心特点在于多版本分层架构。原始版本保留完整元信息,适合自定义预处理;三阶段裁剪版本通过智能去冗余和构图优化,显著提升图像质量。分辨率对齐版本覆盖从384x512到640x880的多种尺寸,适配不同模型输入要求。所有图像均附带标签,便于条件生成任务。数据集规模虽小(n<1K),但来源多元、标注规范,适用于动漫风格文本到图像生成模型的微调与验证。许可证采用MIT协议,降低了学术与商业使用的门槛。
使用方法
使用本数据集时,用户可根据模型架构与训练目标灵活选择版本。若需原始数据,可直接加载‘raw’文件夹中的图片与元信息;如需标准化输入,建议选用384x512或512x512等对齐版本。三阶段裁剪版本(如stage3-640)更适合追求高构图质量的场景。各版本均提供ZIP压缩包下载,解压后即可通过常见深度学习框架(如PyTorch、TensorFlow)构建数据加载器。标签信息可直接作为文本条件输入,支持Diffusers等库的微调流程。建议在使用前检查图像分辨率与标签完整性,以确保与训练管道的兼容性。
背景与挑战
背景概述
在文本到图像生成领域,高质量、精细标注的数据集是驱动模型性能提升的关键基石。CyberHarem/koganeikoyuzu_edomaeelf数据集由DeepGHS团队于近期创建,聚焦于虚拟角色“こがねいこゆず”,包含80张原始图像及其标签。该数据集旨在为动漫风格图像生成研究提供专业化素材,通过从Danbooru、Pixiv、Zerochan等多源平台自动爬取构建,展现了多分辨率对齐与三级裁剪等精细处理流程。其核心研究问题在于如何利用有限但高质的角色图像,支撑稳定扩散等模型的微调与个性化生成,对二次元角色定制化生成领域具有示范意义。
当前挑战
该数据集面临的挑战主要体现在两方面。在领域问题层面,其解决的动漫角色生成任务需克服小样本学习困境——仅80张原始图像难以覆盖角色多角度、多表情与复杂场景,易导致生成结果过拟合或缺乏多样性。在构建过程中,自动爬取系统需应对多平台数据异构性(如标签格式不统一、图像分辨率差异),且三级裁剪算法需在保留角色主体与去除背景噪声间取得平衡;此外,版权合规性审查与图像质量筛选亦构成隐形成本,确保数据集在MIT许可下合规发布的同时维持高可用性。
常用场景
经典使用场景
在图像生成领域,CyberHarem/koganeikoyuzu_edomaeelf 数据集为文本到图像(text-to-image)任务提供了高质量、多尺寸的对齐图像与标签数据。该数据集包含80张核心图像及多版本裁剪版本(如384x512、512x512等),特别适用于训练和微调动漫风格的角色生成模型。研究者可利用其精细标注的标签系统,探索特定角色(如こがねいこゆず)的视觉特征学习,是二次元角色定制化生成研究中的经典数据资源。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于扩散模型的角色保持生成方法(如DreamBooth、LoRA微调技术),以及多模态标签对齐的视觉特征解耦研究。研究者利用该数据集验证了跨分辨率训练策略的有效性,并推动了3-stage裁剪流程在图像预处理中的标准化应用。此外,基于该数据集的少样本学习工作探索了如何从80张图像中提取通用角色表征,为后续的动漫角色数据集构建(如Danbooru2021)提供了方法论参考。
数据集最近研究
最新研究方向
在生成式人工智能与二次元文化交汇的前沿领域,基于特定角色的小样本文本到图像数据集正成为个性化内容创作的重要基石。该数据集聚焦于角色“こがねいこゆず”,通过从Danbooru、Pixiv等多源平台自动爬取并精细标注的80张图像及其标签,为扩散模型的高效微调与风格迁移提供了高质量训练素材。当前研究热点集中于利用此类精细化、多分辨率(如512×512至640×880)对齐的数据集,结合三阶段裁剪预处理技术,以提升模型对角色特征、服饰细节与构图美学的精准还原能力。这一方向不仅推动了二次元IP的自动化生成与衍生内容生态的繁荣,也为小样本学习在创意产业中的实际落地提供了可复现的范式,其影响深远地延伸至虚拟偶像运营、同人创作辅助及数字艺术资产化等多元应用场景。
以上内容由遇见数据集搜集并总结生成



