five

CyberHarem/haruka_hanabishi_mahoushoujoniakogarete

收藏
Hugging Face2024-03-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/haruka_hanabishi_mahoushoujoniakogarete
下载链接
链接失效反馈
官方服务:
资源简介:
这是Haruka Hanabishi/花菱はるか (Mahou Shoujo ni Akogarete)的数据集,包含574张图片及其标签。数据集的核心标签包括`粉色头发、双马尾、钻头头发、绿色眼睛、蝴蝶结、粉色蝴蝶结、双钻头、魔法少女`,这些标签在数据集中被修剪。图片从多个网站(如danbooru, pixiv, zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集提供了多个包的下载链接,并展示了如何使用waifuc加载原始数据集的代码示例。此外,还提供了标签聚类结果的列表,并展示了每个聚类的样本图片和标签。

这是Haruka Hanabishi/花菱はるか (Mahou Shoujo ni Akogarete)的数据集,包含574张图片及其标签。数据集的核心标签包括`粉色头发、双马尾、钻头头发、绿色眼睛、蝴蝶结、粉色蝴蝶结、双钻头、魔法少女`,这些标签在数据集中被修剪。图片从多个网站(如danbooru, pixiv, zerochan等)爬取,爬取系统由DeepGHS团队提供。数据集提供了多个包的下载链接,并展示了如何使用waifuc加载原始数据集的代码示例。此外,还提供了标签聚类结果的列表,并展示了每个聚类的样本图片和标签。
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集信息

  • 名称: Haruka Hanabishi/花菱はるか (Mahou Shoujo ni Akogarete)
  • 许可证: MIT
  • 任务类别: 文本到图像
  • 标签: 艺术, 非所有观众适用
  • 大小类别: n<1K
  • 图像数量: 574
  • 核心标签: pink_hair, twintails, drill_hair, green_eyes, bow, pink_bow, twin_drills, magical_girl

数据集包列表

名称 图像数量 大小 类型 描述
raw 574 377.62 MiB Waifuc-Raw 原始数据,包含元信息(最小边对齐到1400像素,如果更大)
1200 574 377.39 MiB IMG+TXT 短边不超过1200像素的数据集
stage3-p480-1200 1188 689.04 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素

标签聚类结果

原始文本版本

# 样本数量 图像示例 标签
0 7 1girl, blush, solo, hair_bow, open_mouth, portrait, long_hair, anime_coloring, heart_brooch, parody, sweatdrop
1 18 1girl, solo, upper_body, blush, heart, white_shirt, brooch, hair_bow, closed_mouth, looking_at_viewer, pink_bowtie, long_hair, breasts, frown, outdoors, puffy_short_sleeves, v-shaped_eyebrows
... ... ... ...
23 6 1girl, building, city, slime_(substance), solo, torn_clothes, aqua_eyes, tentacles, outdoors, pink_dress, pink_skirt, thighhighs, dissolving_clothes, long_hair, nose_blush, open_mouth

表格版本

| # | 样本数量 | 图像示例 | 1girl | blush | solo | hair_bow | open_mouth | portrait | long_hair | anime_coloring | heart_brooch | parody | sweatdrop | upper_body | heart | white_shirt | brooch | closed_mouth | looking_at_viewer | pink_bowtie | breasts | frown | outdoors | puffy_short_sleeves | v-shaped_eyebrows | pink_gloves | elbow_gloves | dress | blue_sky | day | cloud | puffy_sleeves | teeth | short_sleeves | holding | smile | wand | closed_eyes | frills | pink_footwear | skirt | exploding_clothes | torn_clothes | navel | small_breasts | serafuku | yellow_neckerchief | bag | green_sailor_collar | long_sleeves | facing_viewer | green_skirt | pleated_skirt | school_bag | from_side | profile | standing | pink_flower | sailor_collar | indoors | 2girls | blonde_hair | solo_focus | blue_eyes | classroom | school_desk | sitting | chalkboard | school_chair | restrained | saliva | tentacles | large_breasts | arms_behind_back | clenched_teeth | plant | blurry_background | thighhighs | bottomless | no_panties | wariza | boots | covering_breasts | holding_wand | sky | covering_privates | cleavage | embarrassed | tears | aqua_eyes | pink_thighhighs | collarbone | nipples | nude | medium_breasts | on_back | on_floor | tile_floor | wavy_mouth | black_background | completely_nude | barefoot | simple_background | ass | back | from_behind | ponytail | kneepits | brown_eyes | onsen | building | city | slime_(substance) | pink_dress | pink_skirt | dissolving_clothes | nose_blush | |---|----------|----------|-------|-------|------|----------|------------|----------|------------|-----------------|--------------|--------|-----------|------------|-------|--------------|--------|---------------|--------------------|--------------|---------|-------|----------|----------------------|--------------------|--------------|---------------|-------|-----------|-----|--------|----------------|--------|----------------|----------|-------|------|--------------|---------|----------------|-------|--------------------|---------------|--------|----------------|-----------|---------------------|------| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 0 | 7 | | X | X | X | X | X | X | X | X | X | X | X | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

搜集汇总
数据集介绍
main_image_url
构建方式
本数据集聚焦于《魔法少女にあこがれて》中的角色花菱はるか(Haruka Hanabishi),通过自动化爬虫系统从Danbooru、Pixiv、Zerochan等多个图像平台收集原始图像,共收录574张图片及对应的标签信息。爬取系统由DeepGHS团队开发,支持高效、大规模的数据采集。数据集的核心标签包括粉发、双马尾、卷发、绿眼、蝴蝶结等,这些标签在数据集中经过剪枝处理以突出角色特征。构建过程中,数据被划分为多个版本:原始版本(raw)保留元数据并将短边对齐至1400像素;1200版本将短边限制为不超过1200像素;stage3-p480-1200版本则采用三级裁剪策略,确保每张图像面积不低于480×480像素,从而提升图像质量与多样性。
特点
该数据集具有鲜明的角色导向特性,所有图像均围绕花菱はるか这一魔法少女角色构建,标签系统精细且结构化。核心标签如pink_hair、twintails、drill_hair、green_eyes、bow等被统一剪枝,便于模型快速聚焦于角色关键视觉元素。此外,数据集提供了丰富的聚类分析结果,将图像按标签组合划分为24个簇,涵盖不同服装、场景与姿态,例如水手服、教室场景、户外战斗等,有助于挖掘角色的多模态表现。数据集版本多样,包括原始元数据版、标准化尺寸版及裁剪增强版,适应不同训练需求。所有图像均经过版权合规处理,并附带详细的标签信息,为文本到图像生成任务提供了高质量、高一致性的训练素材。
使用方法
数据集的使用方式灵活多样,支持通过waifuc库直接加载原始数据进行训练或分析。用户可通过huggingface_hub下载原始压缩包,解压后利用LocalSource接口读取图像及元数据,包括文件名和标签列表。对于需要标准化输入的任务,推荐使用1200版本,其图像短边统一不超过1200像素,并附带对应的TXT标签文件。若需增强数据多样性,可选用stage3-p480-1200版本,该版本通过三级裁剪生成1188张子图,适用于细粒度特征学习。数据集还提供了聚类结果的可视化示例,用户可直接参考各簇的标签组合以设计特定场景的生成任务。整体而言,该数据集易于集成到现有的文本到图像生成流程中,降低了数据预处理的门槛。
背景与挑战
背景概述
该数据集聚焦于动漫《魔法少女にあこがれて》中的角色花菱はるか,由DeepGHS团队于近期构建并发布在CyberHarem社区下。研究核心在于为文本到图像生成任务提供高质量、标注精细的角色专属图像集合,以推动二次元角色定制化生成模型的发展。数据集包含574张经过筛选与标注的图像,核心标签涵盖粉色双马尾、绿色眼眸、蝴蝶结等标志性特征,为角色一致性生成奠定了数据基础。其影响力体现在为动漫风格生成领域提供了标准化的角色数据资源,促进了基于扩散模型的角色定制研究。
当前挑战
当前数据集面临多重挑战。首先,在领域问题层面,动漫角色生成需解决细粒度特征保持与风格泛化之间的平衡,例如花菱はるか的钻头双马尾与魔法少女服饰等复杂细节的精准还原。其次,构建过程中遭遇数据稀疏性难题,仅574张图像难以覆盖角色全部姿态与场景,且多源爬取(如danbooru、pixiv)导致图像质量与标注一致性波动。此外,标签聚类揭示的服装多样性(如校服、魔法装束)与部分裸露内容增加了数据清洗与伦理合规的复杂度,需在保留艺术表达的同时过滤不当内容。
常用场景
经典使用场景
该数据集以动画《魔法少女にあこがれて》中的角色花菱はるか为核心,收录了574张来自Danbooru、Pixiv、Zerochan等平台的图像及其标注标签。经典使用场景聚焦于基于文本描述生成角色图像的扩散模型训练,通过提供‘粉发、双马尾、钻头卷发、绿瞳、蝴蝶结、魔法少女’等核心标签,实现了对角色外观与风格的高精度语义控制。研究者常利用该数据集微调Stable Diffusion等文生图模型,以生成特定动漫角色的个性化肖像或场景,从而在二次元图像生成领域推动角色一致性和风格迁移的研究。
衍生相关工作
该数据集衍生出一系列经典工作,包括基于Waifuc框架的动漫图像自动爬取与清洗流水线(如DeepGHS团队的工作),以及针对角色标签的聚类分析技术。后续研究如‘AnimeGANv3’与‘WaifuDiffusion’等模型,均借鉴了该数据集的多尺度裁剪策略(如stage3-p480-1200)与标签分层方法。此外,该数据集催生了‘角色概念学习’(Concept Learning)方向,推动LoRA(Low-Rank Adaptation)微调技术在动漫领域的普及,使研究者得以在保持角色核心特征的前提下实现风格迁移或跨模态生成。
数据集最近研究
最新研究方向
在动漫角色生成与个性化图像合成领域,CyberHarem/haruka_hanabishi_mahoushoujoniakogarete数据集为基于文本到图像扩散模型的二次元角色定制研究提供了关键支撑。该数据集聚焦于《魔法少女にあこがれて》中的花菱はるか角色,包含574张高质量图像及标注标签,其核心特征如粉色钻头发型、绿色眼眸与魔法少女装束,精准对应了当前业界对细粒度角色属性控制的前沿探索。随着Stable Diffusion等模型在动漫风格生成中的广泛应用,该数据集通过多源爬取与自动标注系统,推动了角色一致性生成、标签聚类分析以及多阶段裁剪预处理等技术的发展,为研究者在少样本学习、风格迁移和复杂场景下的角色保持等热点问题上提供了标准化基准,对加速二次元文化内容创作与AI辅助设计具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作