genai-image-tag-db

Hugging Face2025-12-18 更新2025-12-19 收录

下载链接：

https://huggingface.co/datasets/NEXTAltair/genai-image-tag-db

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于图像生成（如Stable Diffusion / LoRA学习）的标签数据库，整合了多个来源的“booru系标签”并以SQLite格式提供。数据集包含多个表，如TAGS（标签和原始表记）、TAG_STATUS（标签属性和元信息）、TAG_TRANSLATIONS（翻译信息）等，并提供了详细的ER图和健康检查信息。数据集以CC0-1.0许可证发布，并提供了快速使用的SQL示例。

创建时间：

2025-12-16

原始信息汇总

GenAI Image Tag DB 数据集概述

数据集基本信息

数据集名称: GenAI Image Tag DB (CC0 / SQLite)
许可证: CC0-1.0
支持语言: 英语 (en)、日语 (ja)
标签: tag-database, image-generation, stable-diffusion, lora, booru, danbooru, e621, derpibooru
数据规模: 1M<n<10M
任务类别: 文本检索 (text-retrieval)、文本分类 (text-classification)

数据集描述

这是一个用于图像生成（如 Stable Diffusion / LoRA 训练）的“booru系标签”数据库，通过整合多个来源的数据并转换为 SQLite 格式。数据集主体为 SQLite 文件，Parquet 文件仅用于在 Hugging Face 的 Dataset Viewer 中显示样本。

文件列表

主文件: genai-image-tag-db-cc0.sqlite（约 337.68 MiB）
视图文件: parquet_danbooru/*.parquet（约 6.03 MiB，22个文件），用于 Dataset Viewer

数据库模式（表结构）

TAGS表: 存储规范化标签 (tag) 及其原始表示 (source_tag)。
TAG_STATUS表: 存储按网站/格式划分的标签属性（type_id, alias, preferred_tag_id）和附加元信息（deprecated, deprecated_at, source_created_at）。
TAG_TRANSLATIONS表: 存储标签翻译（language, translation）。
TAG_USAGE_COUNTS表: 存储标签使用次数（format_id, count），其日期时间视为该计数的观测时间。
辅助表: TAG_FORMATS, TAG_TYPE_NAME, TAG_TYPE_FORMAT_MAPPING 为映射主表。

数据库健康检查结果

quick_check: ok
foreign_key_violations: 0
orphan_*: 0
duplicate_*: 0
alias_inconsistencies: 0
bad_usage_counts: 0

数据统计

total_tags: 1,074,574
total_tag_status: 1,196,154
total_translations: 268,537
total_usage_counts: 1,041,634

快速使用示例

查找标签

sql SELECT tag_id, tag, source_tag FROM TAGS WHERE tag LIKE %witch% LIMIT 50;

解析别名（特定于网站/格式）

sql -- format_id: 1=danbooru, 2=e621, 3=derpibooru, 0=unknown SELECT t.tag AS input_tag, tp.tag AS preferred_tag, ts.alias, ts.type_id FROM TAG_STATUS ts JOIN TAGS t ON t.tag_id = ts.tag_id JOIN TAGS tp ON tp.tag_id = ts.preferred_tag_id WHERE ts.format_id = 1 AND t.tag = some_tag;

搜集汇总

数据集介绍

构建方式

在人工智能图像生成领域，标签数据库的构建对于提升模型语义理解能力至关重要。GenAI Image Tag DB通过整合多个主流booru站点（如Danbooru、e621、Derpibooru）的标签数据，采用结构化ETL流程进行采集与清洗。数据经过正規化处理，统一标签格式并消除冗余，随后导入SQLite数据库，形成包含标签核心信息、状态属性、多语言翻译及使用统计的关联表体系。构建过程中实施了严格的数据完整性校验，确保外键约束与逻辑一致性，最终生成了一个涵盖百万级标签的高质量知识库。

特点

该数据集的核心特征在于其高度结构化与跨平台兼容性。数据库采用关系型架构，通过TAGS、TAG_STATUS等七张表系统化管理标签的元数据、别名映射、多语言翻译及使用频率，支持复杂的语义查询与关联分析。标签来源覆盖多个主流图像社区，保留了各平台的类型体系与属性标注，并引入时间维度信息，如标签创建、废弃及统计观测时间戳。此外，所有数据均以CC0协议发布，允许无限制的研究与商业应用，为生成式AI模型的训练与优化提供了标准化、可扩展的语义资源基础。

使用方法

研究人员与开发者可通过SQLite接口直接访问该数据库，执行灵活的查询操作以支持多样化的应用场景。例如，利用LIKE语句进行标签模糊匹配，快速检索相关语义概念；通过JOIN操作解析特定平台下的标签别名与推荐映射，确保标签使用的准确性。数据集还可用于构建标签推荐系统、分析标签使用趋势或为Stable Diffusion、LoRA等生成模型提供结构化提示词库。对于大规模处理需求，用户可提取Parquet格式样本进行初步分析，或直接集成SQLite文件至现有数据流水线，实现高效的语义信息检索与知识管理。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，特别是以Stable Diffusion和LoRA为代表的图像生成模型，对高质量、结构化的标注数据需求日益迫切。GenAI Image Tag DB应运而生，由社区贡献者整合多个主流“booru”风格图像标签平台（如Danbooru、e621、Derpibooru）的数据构建而成，旨在为AI图像生成提供统一、标准化的标签数据库。该数据集以SQLite格式为核心，收录了超过百万条标签及其元数据，包括标签状态、翻译和使用统计，其CC0许可协议促进了在学术与工业界的自由使用与二次开发，显著推动了生成模型在细粒度语义控制与多语言适配方面的研究进程。

当前挑战

在图像生成领域，精准的语义标注是实现可控生成的关键挑战，标签的歧义性、不一致性及跨平台差异严重制约了模型的泛化能力。GenAI Image Tag DB致力于解决这一核心问题，通过整合多源异构标签数据，构建统一的语义映射体系。然而，数据构建过程面临诸多挑战：不同来源的标签体系存在命名规范、分类层级与更新频率的显著差异，需进行复杂的归一化与去重处理；标签之间的别名、弃用关系及多语言翻译的维护要求极高的数据一致性与时效性；此外，海量标签的动态使用统计的采集与整合，亦对数据架构的扩展性与完整性提出了严峻考验。

常用场景

经典使用场景

在生成式人工智能领域，特别是基于扩散模型的图像生成技术中，标签系统对于引导模型生成特定主题、风格或属性的图像至关重要。GenAI Image Tag DB作为一个整合了Danbooru、e621、Derpibooru等多个来源标签的标准化数据库，其经典使用场景在于为Stable Diffusion、LoRA等模型的训练与微调提供结构化、多语言的标签语义资源。研究人员和开发者利用该数据集构建或优化提示词工程，通过SQL查询高效检索标签及其关联信息，从而提升生成图像在内容准确性和风格一致性方面的表现。

实际应用

在实际应用层面，GenAI Image Tag DB被广泛集成于各类AI艺术创作工具、内容生成平台以及个性化图像定制服务中。开发者借助其丰富的标签关系网络，实现更精准的用户意图解析，例如将自然语言描述映射到标准化的视觉概念标签，从而生成符合用户预期的图像。此外，该数据集也支持内容过滤系统的构建，通过标签属性管理帮助平台实施内容安全策略，在娱乐、设计、教育等多个行业推动生成式AI技术的安全、高效落地。

衍生相关工作

围绕GenAI Image Tag DB，已衍生出多项经典研究工作，主要集中在标签增强的图像生成模型、跨模态检索系统以及自动化标签推荐框架等领域。例如，一些研究利用该数据集的标签层次和翻译信息，训练出能够理解复杂语义关系的文本编码器，进而提升文生图模型的细粒度控制能力。另一些工作则基于其统计使用频次数据，开发了标签重要性评估算法，用于优化提示词生成或内容分类任务。这些衍生工作共同推动了生成式AI在语义理解和可控生成方面的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集