Smallbooru

Hugging Face2026-05-18 更新2026-05-19 收录

下载链接：

https://huggingface.co/datasets/hamzah0asadullah/Smallbooru

下载链接

链接失效反馈

官方服务：

资源简介：

Smallbooru是一个文本-图像对数据集，专为微调Stable Diffusion等文生图模型的LoRA适配器而设计。数据集通过Tongyi-MAI/Z-Image-Turbo模型生成，其名称源于使用Danbooru格式的提示词和动漫风格图像。核心内容基于7个预定义类别（性别、大致时间、区域、活动、眼睛颜色、头发颜色、头发类型）的Danbooru标签，通过组合生成所有可能的提示词，并对应生成高质量的动漫风格图像。数据集计划包含6,144个唯一样本，每个样本以字典形式存储，包含prompt字段（简化的Danbooru标签字符串，以逗号和空格连接）和completion字段（指向512x512分辨率PNG图像文件的路径），所有样本信息整合在merger.json文件中。主要应用场景包括对小型文生图模型进行LoRA微调以学习特定动漫风格，以及作为模型卡片、文章或网页的示例素材或占位图使用。

Smallbooru is a text-image pair dataset designed for fine-tuning LoRA adapters of text-to-image models like Stable Diffusion. The dataset is generated using the Tongyi-MAI/Z-Image-Turbo model, and its name originates from the use of Danbooru-format prompts and anime-style images. The core content is based on Danbooru tags from seven predefined categories (gender, approximate time, region, activity, eye color, hair color, hair type), generating all possible prompt combinations and corresponding high-quality anime-style images. The dataset plans to include 6,144 unique samples, each stored as a dictionary with a prompt field (a simplified Danbooru tag string joined by commas and spaces) and a completion field (a path to the corresponding 512x512 resolution PNG image file), with all sample information consolidated in a file named merger.json. The primary application is fine-tuning small text-to-image models (e.g., SD1.5) with LoRA to learn specific anime styles, and the images can also be used as example materials or placeholders for model cards, articles, or web pages.

创建时间：

2026-05-17

原始信息汇总

数据集概述

Smallbooru 是一个由文本到图像（text-to-image）数据对组成的数据集，所有图像均通过 Tongyi-MAI/Z-Image-Turbo 模型生成。

核心特征

命名来源：数据集名称基于 Danbooru 格式 的文本描述，且图像风格为 动漫风格（anime-stylized）。
数据规模：预计最终包含 6,144 个独立样本，适合用于对文本到图像模型（如 Stable Diffusion）进行 LoRA 微调。
语言：英文（English）。

数据集生成方式

标签选取与分类：

从 Danbooru 标签中选取了 7 类标签，包括性别、时间段、场景、活动、眼睛颜色、头发颜色和头发类型，具体如下表所示：

标签	类别
1girl, 1boy	性别
evening, morning, night, day	大致时间
beach, city, school, bedroom, shopping mall, park	场景
standing, sitting, drinking, eating	活动
dark-brown eyes, brown eyes, blue eyes, green eyes	眼睛颜色
black hair, brown hair, blonde hair, red hair	头发颜色
straight hair, curly hair	头发类型

组合生成：使用 Python 标准库 itertools.product 计算所有标签组合，共生成多种提示词（prompt）。每个提示词由所有类别中选取的标签以逗号连接而成，例如："1girl, morning, school, sitting, green eyes, red hair, curly hair"。
图像生成：
- 在生成时，每个提示词前附加一段固定的动漫风格描述（如："Screenshot of a high-quality anime-stylized render..."）。
- 图像尺寸固定为 512x512 像素，并以 PNG 格式（无损压缩）存储。
数据记录：
- 生成的图像路径与简化后的提示词（仅包含 Danbooru 标签）以字典形式存储在 merger.json 文件中，结构如下： json [ { "prompt": "string", "completion": "string" }, { "prompt": "1girl, morning, school, sitting, green eyes, red hair, curly hair", "completion": "./images/1087.png" } ]

使用方式

数据访问：从 https://huggingface.co/datasets/hamzah0asadullah/Smallbooru/raw/main/merger.json 获取 merger.json 文件，然后根据需要下载对应的图像文件。
示例代码：可使用 Python 的 requests 包加载数据集，示例如下： python from json import loads from requests import get

base_url = "https://huggingface.co/datasets/hamzah0asadullah/Smallbooru" merger_path = f"{base_url}/raw/main/merger.json" dataset = loads(get(merger_path).text)

print("第一个样本：") print("提示词:", dataset[0]["prompt"]) print("图像 URL:", f"{base_url}/resolve/main/images/{dataset[0][completion].split(/)[-1]}")

适用场景

LoRA 微调：适用于在小型模型（如 SD1.5）上进行 LoRA 微调，由于样本数量有限，不适合全参数微调。
风格学习：数据集图像质量较高，且提示词中未包含元标签描述质量，可使微调模型倾向于生成高质量结果。
素材使用：可用于其他模型卡、文章或网页中作为示例图像或占位符。

其他信息

许可证：Apache-2.0
任务类型：text-to-image（文本到图像）
标签：anime（动漫）、synthetic（合成）

搜集汇总

数据集介绍

构建方式

Smallbooru数据集基于Tongyi-MAI/Z-Image-Turbo模型生成，旨在构建高质量的文生图配对数据。其构建流程始于从Danbooru标签系统中精选七类标签，涵盖性别、时段、场景、活动、瞳色、发色及发质等维度。通过Python标准库itertools.product函数计算所有标签组合，形成共计6144条独特提示词。每条提示词均附加一个描述性句子以强化动漫渲染风格，随后调用API逐对生成512x512分辨率的图像，并以无损PNG格式保存。最终，通过merger.json文件将简化后的提示词与图像路径建立映射关系，实现数据索引化存储。

使用方法

使用Smallbooru数据集时，开发者可通过HuggingFace仓库获取核心索引文件merger.json，该文件记录了每条提示词与对应图像路径的映射关系。利用requests等HTTP库下载该JSON文件后，即可按需访问图像资源。示例代码展示了通过拼接基础URL与图像路径来构建完整图像链接的方式。该数据集特别适合用于Stable Diffusion 1.5等轻量模型的LoRA微调，只需少量训练步骤即可习得动漫风格。也可直接选取其中图像作为模型卡片、文章或Web界面的占位图，实现多场景复用。

背景与挑战

背景概述

Smallbooru数据集由研究者hamzah0asadullah创建，旨在为文本到图像生成领域提供一组高质量、结构化的动漫风格图像-文本对。该数据集利用通义万相（Tongyi-MAI/Z-Image-Turbo）模型生成，通过精心挑选Danbooru格式的标签并穷举所有组合，最终计划产出6,144个独特样本，每个样本均为512x512像素的PNG图像。数据集的核心研究问题聚焦于如何利用有限的、但经过精心设计的样本，通过LoRA微调技术，高效地将小型文本到图像模型（如Stable Diffusion 1.5）适配至特定的动漫风格。Smallbooru的发布为个性化图像生成、简单肖像生成等应用场景提供了宝贵的数据基础，尤其适用于资源受限或需快速原型开发的场景，对推动轻量级模型微调方法的发展具有重要意义。

当前挑战

Smallbooru数据集的核心挑战在于平衡有限样本规模与模型泛化能力之间的关系。在领域问题层面，该数据集致力于解决文本到图像生成中风格迁移的精确控制难题，即如何通过少量但高度结构化的“标签组合”样本，使预训练模型精准学习动漫风格，并避免过拟合。构建过程中，挑战主要体现在标签设计的全面性与组合的合理性：所选标签需覆盖性别、时间、地点、活动、眼瞳发色及发质等多个维度，但受限于样本总数，每一维度内的选项必须精炼以维持组合的可行性。此外，图像生成环节依赖外部API，需确保每次生成的图像质量一致且符合动漫审美标准，这对生成模型的稳定性和提示词的精心设计提出了较高要求。数据集的完整性（6,144个样本）与存储格式（无损PNG）也需在构建效率与资源消耗间取得折中。

常用场景

经典使用场景

Smallbooru数据集专为文本到图像生成任务设计，其核心应用场景在于微调轻量级适配器，如LoRA（Low-Rank Adaptation）。该数据集包含6144个由Danbooru格式标签生成的高质量动漫风格图像与文本对，所有图像尺寸统一为512x512像素。在经典使用中，研究者利用此数据集对Stable Diffusion 1.5等基础模型进行风格迁移训练，通过控制人物性别、时间、场景、活动、瞳色、发色及发型等七类标签的组合，实现细粒度的图像生成控制。这种结构化的标签设计使得数据集特别适合评估模型对多维度语义条件的响应能力，成为动漫风格图像生成领域验证LoRA微调效果的基准资源之一。

解决学术问题

该数据集主要解决了两个学术研究难题：其一是针对小样本场景下的风格迁移问题，传统全参数微调需要海量数据，而Smallbooru通过系统化的标签组合设计，证明了在仅数千样本量级下，LoRA方法仍能有效捕捉特定艺术风格；其二是解决了可控图像生成中标签组合爆炸的评估困境，研究者可借助其积化生成的标签空间，系统分析模型对单一属性变化（如昼夜交替、场景切换）的响应稳定性。该工作为探索提示工程与模型偏差之间的关系提供了量化实验平台，推动了轻量化微调技术在垂直领域应用的理论发展，尤其深化了关于结构化标签对生成结果一致性和多样性影响的认知。

实际应用

在实际应用层面，Smallbooru展现出多重价值。首先，它可作为社交平台默认头像的生成器基础，通过微调模型快速产出符合风格要求的个性化肖像，替代传统的占位符图像，改善用户体验。其次，动漫内容创作团队可利用该数据集训练专用模型，实现从文本描述到草图的高速转换，辅助角色设计或场景分镜制作。此外，电商平台可借鉴其标签体系，在虚拟商品展示中生成统一风格的预览图，降低人工绘制成本。值得注意的是，数据集本身还可作为高质量素材库，直接用于其他研究论文、产品文档或Web页面的插图，类似于Sao10K等知名模型卡中的示例图片使用方式。

数据集最近研究