CyberHarem/tania_beasttamer
收藏Hugging Face2024-05-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/tania_beasttamer
下载链接
链接失效反馈官方服务:
资源简介:
这是Tania/タニア (Beast Tamer)的数据集,包含465张图片及其标签。图片从多个网站(如danbooru、pixiv、zerochan等)爬取,爬取系统由DeepGHS团队开发。数据集的核心标签包括`red_hair, long_hair, horns, breasts, yellow_eyes, dragon_horns, large_breasts`,这些标签在数据集中进行了修剪。
这是Tania/タニア (Beast Tamer)的数据集,包含465张图片及其标签。图片从多个网站(如danbooru、pixiv、zerochan等)爬取,爬取系统由DeepGHS团队开发。数据集的核心标签包括`red_hair, long_hair, horns, breasts, yellow_eyes, dragon_horns, large_breasts`,这些标签在数据集中进行了修剪。
提供机构:
CyberHarem
原始信息汇总
数据集概述:Tania/タニア (Beast Tamer)
数据集基本信息
- 名称: Tania/タニア (Beast Tamer)
- 包含内容: 465张图像及其标签
- 核心标签: red_hair, long_hair, horns, breasts, yellow_eyes, dragon_horns, large_breasts
- 许可证: MIT
- 任务类别: text-to-image
- 标签: art, not-for-all-audiences
- 大小类别: n<1K
数据集内容详细说明
图像来源
- 图像从多个网站爬取,包括danbooru, pixiv, zerochan等。
- 自动爬虫系统由DeepGHS Team提供技术支持。
数据集包信息
| 名称 | 图像数量 | 大小 | 下载链接 | 类型 | 描述 |
|---|---|---|---|---|---|
| raw | 465 | 340.32 MiB | 下载 | Waifuc-Raw | 包含元信息的原始数据,最小边对齐到1400像素(如果更大)。 |
| stage3-p480-1200 | 945 | 609.89 MiB | 下载 | IMG+TXT | 三阶段裁剪数据集,区域不小于480x480像素。 |
数据集加载示例
- 提供使用waifuc加载原始数据集的Python代码示例。
数据集集群信息
集群列表(部分示例)
| 集群编号 | 样本数量 | 图像示例及标签特征 |
|---|---|---|
| 0 | 15 | bare_shoulders, blue_sky, day, detached_sleeves, outdoors, 1girl, cloud, red_skirt, very_long_hair, orange_eyes, smile, white_shirt, solo_focus, dragon_girl, multiple_girls, open_mouth |
| 1 | 20 | 1girl, day, bare_shoulders, blue_sky, closed_mouth, cloud, outdoors, solo, upper_body, sleeveless, anime_coloring, detached_sleeves, smile, white_shirt, looking_at_viewer, tree, blush |
| 2 | 10 | 1girl, bare_shoulders, looking_at_viewer, solo, upper_body, :d, hair_between_eyes, open_mouth, white_shirt, sleeveless, collarbone, blush, day, outdoors, sky, white_dress, orange_eyes |
此数据集适用于艺术创作和特定观众群体,提供了丰富的图像资源和详细的标签信息,支持文本到图像的任务需求。
搜集汇总
数据集介绍

构建方式
在动漫角色图像数据集的构建领域,CyberHarem/tania_beasttamer数据集聚焦于特定角色“塔尼亚”(兽之驯服者)的视觉资料收集。该数据集通过自动化爬虫系统,从Danbooru、Pixiv、Zerochan等多个知名动漫艺术平台系统性地采集原始图像,共整合465幅图像及其对应标签。构建过程中,原始图像经过预处理,确保最小边缘对齐至1400像素以上,同时移除了角色的核心特征标签(如红发、龙角等),以提供更为通用的标注基础。此外,数据集还提供了经过三阶段裁剪的版本,确保每张裁剪图像面积不低于480×480像素,扩展至945张图像,以适应不同分辨率需求的模型训练。
特点
该数据集在动漫角色图像数据集中展现出鲜明的专一性与结构性。其核心特征在于高度聚焦于单一角色“塔尼亚”,涵盖了该角色多样化的视觉呈现,包括不同姿态、场景与服饰变体。数据集提供了两种数据包:原始数据包包含完整的元信息与标签,适用于需要深度元数据分析的研究;而裁剪后的数据包则优化了图像尺寸,便于直接用于模型训练。标签体系经过精心修剪,避免了过度特定的特征标注,增强了数据集的泛化能力。同时,数据集中还包含了基于标签聚类的结果,通过视觉示例展示了不同特征组合下的图像分组,为角色服饰与场景的挖掘提供了结构化参考。
使用方法
在文本到图像生成或角色特征分析的研究中,该数据集提供了灵活的使用途径。研究者可通过Hugging Face Hub直接下载原始压缩包或预处理后的裁剪版本。对于需要利用完整元数据与标签的用户,推荐使用Waifuc工具进行加载:首先通过huggingface_hub下载dataset-raw.zip文件,解压至本地目录后,使用LocalSource导入数据,即可遍历访问每幅图像及其关联的标签信息。预处理后的stage3-p480-1200版本则更适合直接输入深度学习模型,无需额外裁剪。数据集中提供的聚类表格可作为特征分析的辅助,帮助识别角色常见的视觉主题与属性组合,从而支持更精细的模型训练或视觉内容研究。
背景与挑战
背景概述
在动漫艺术与生成式人工智能交叉领域,角色特异性图像数据集的构建对于推动文本到图像生成模型的精细化发展至关重要。CyberHarem/tania_beasttamer数据集聚焦于动漫角色“塔尼亚”(兽王),由DeepGHS团队通过自动化爬虫系统从Danbooru、Pixiv等主流动漫艺术平台采集并整理。该数据集收录了465张原始图像及对应标签,核心研究问题在于如何为特定虚构角色构建高质量、多姿态、多场景的标注图像集合,以支持角色一致性生成、风格化图像合成等下游任务。其出现反映了当前生成式AI研究向垂直化、精细化方向演进的趋势,为动漫角色生成领域提供了宝贵的专项数据资源。
当前挑战
该数据集旨在解决动漫角色图像生成中角色特征保持与多样化表达的核心挑战,即如何在生成过程中准确捕捉并稳定呈现“红发、龙角”等特定视觉属性,同时避免模式崩溃与细节失真。构建过程中的挑战主要体现在数据采集与处理环节:首先,从多源异构平台爬取图像需克服网站反爬机制与数据格式不统一的障碍;其次,原始图像在构图、画风、分辨率上存在显著差异,需通过裁剪、对齐等预处理步骤保证数据质量与规格统一;此外,标签体系的构建需平衡核心特征标注的完整性与冗余标签的修剪,以确保数据对模型训练的有效性。
常用场景
经典使用场景
在动漫艺术与生成式人工智能的交汇领域,CyberHarem/tania_beasttamer数据集以其精心标注的二次元角色图像,为文本到图像生成模型提供了高质量的微调素材。该数据集聚焦于特定角色“塔尼亚”的视觉特征,通过系统化的标签体系,使得研究人员能够训练模型精准捕捉红发、龙角等标志性属性,从而在风格化图像合成任务中实现高度一致的角色还原。
解决学术问题
该数据集针对生成式对抗网络与扩散模型中角色一致性保持的学术难题,提供了结构化解决方案。通过提供带有层次化标签的视觉样本,它帮助研究者突破跨姿态、跨场景的角色特征稳定生成瓶颈,显著提升了可控图像合成的语义对齐精度。其标注体系为细粒度属性解耦研究建立了实验基准,推动了条件生成模型的可解释性发展。
衍生相关工作
围绕该数据集衍生的研究聚焦于标签驱动的生成模型优化,例如基于注意力机制的属性绑定技术,确保龙角、发色等核心特征在生成过程中的稳定性。相关工作还探索了跨数据集的特征迁移方法,将其标注范式扩展至其他动漫角色,形成了系列化的角色专属生成模型,为垂直领域生成任务提供了可复用的技术框架。
以上内容由遇见数据集搜集并总结生成



