genai-image-tag-db-mit

Hugging Face2025-12-18 更新2025-12-19 收录

下载链接：

https://huggingface.co/datasets/NEXTAltair/genai-image-tag-db-mit

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'genai-image-tag-db (MIT build)'，是一个用于图像生成的标签数据库，特别适用于stable-diffusion及相关技术。数据集包含来自danbooru、e621和derpibooru等多个来源的标签，并以SQLite和Parquet格式提供。数据集基于CC0基础的SQLite数据库，并添加了MIT许可的增量内容。Parquet格式特别包含danbooru标签，列包括tag_id、tag、format_name、type_name、count、deprecated_tags以及特定语言的标签（日语和中文）。数据集采用MIT许可，并包含来自多个来源的贡献，每个来源都有自己的MIT许可。数据集还包括数据清理的说明，确保语言特定标签包含适当的脚本。

创建时间：

2025-12-17

原始信息汇总

数据集概述

基本信息

数据集名称: genai-image-tag-db (MIT build)
托管地址: https://huggingface.co/datasets/NEXTAltair/genai-image-tag-db-mit
许可证: MIT
语言: 英语 (en)、日语 (ja)
任务类别: 文本检索 (text-retrieval)
标签: tag-database, image-generation, stable-diffusion, lora, booru, danbooru, e621, derpibooru

内容描述

该存储库包含标签数据库的 MIT 构建版本。它通过获取 CC0 基础 SQLite 数据库 (genai-image-tag-db-cc0.sqlite) 并在其上应用 MIT 许可的源增量 而生成。

文件结构

genai-image-tag-db-mit.sqlite: 完整的 SQLite 数据库（关系型模式）。
parquet_danbooru/: 为 Hugging Face 数据集查看器导出的 Parquet 文件（目前仅包含 danbooru 数据）。
source_effects.tsv: 来源影响报告（记录实际更改了数据库的源）。
skipped_sources.tsv: 被过滤或跳过的源。
db_health/: 数据库完整性检查（外键、孤立项、重复项等）。

数据模式

SQLite 模式说明

此构建使用与 CC0 基础版本相同的关系模式，并在 TAG_STATUS 表中新增了以下列：

deprecated (布尔型): 弃用标志（与别名重定向分开）。
deprecated_at (日期时间型，可为空): 被弃用的时间（未知则为 NULL）。
source_created_at (日期时间型，可为空): 源端时间戳（如果可用）。

Parquet 模式 (danbooru 拆分)

列包括：

tag_id (整数型)
tag (字符串型)
format_name (字符串型)
type_name (字符串型)
count (整数型)
deprecated_tags (字符串列表) — 已弃用/别名标签的反向列表（对应 TAGS.tag）。
lang_ja (字符串列表)
lang_zh (字符串列表)

许可证与来源

分发许可证

此 MIT 构建 版本依据 MIT 许可证 分发。

包含的来源（实际说明）

此构建包含：

CC0 基础数据库（见下文）
下述列出的 MIT 许可的增补内容（仅包含 source_effects.tsv 中 db_changes > 0 的部分）

CC0 基础（已包含）

基础数据库: genai-image-tag-db-cc0.sqlite
源存储库: https://huggingface.co/datasets/NEXTAltair/genai-image-tag-db

影响此构建的 MIT 许可来源

（根据 source_effects.tsv 中 db_changes > 0 的记录得出）

TagDB_DataSource_CSV/A/danbooru.csv (MIT) — https://github.com/DominikDoom/a1111-sd-webui-tagcomplete
TagDB_DataSource_CSV/A/derpibooru.csv (MIT) — https://github.com/DominikDoom/a1111-sd-webui-tagcomplete
TagDB_DataSource_CSV/A/e621.csv (MIT) — https://github.com/DominikDoom/a1111-sd-webui-tagcomplete
TagDB_DataSource_CSV/A/e621_sfw.csv (MIT) — https://github.com/DominikDoom/a1111-sd-webui-tagcomplete
TagDB_DataSource_CSV/A/EnglishDictionary.csv (MIT) — https://github.com/DominikDoom/a1111-sd-webui-tagcomplete
TagDB_DataSource_CSV/A/danbooru_machine_jp.csv (MIT) — https://github.com/boorutan/booru-japanese-tag
TagDB_DataSource_CSV/A/rising_v2.csv (MIT) — 来源 URL 未知（整理/原始状态未知）
TagDB_DataSource_CSV/A/dataset_rising_v2.csv (MIT) — 来源 URL 未知（整理/原始状态未知）
TagDB_DataSource_CSV/rising_v3.csv (MIT) — https://huggingface.co/datasets/hearmeneigh/e621-rising-v3-preliminary-data
TagDB_DataSource_CSV/TagsList-Easter-e5.csv (MIT) — 来源 URL 未知（ZIP 文件中包含 MIT 许可证文件）
TagDB_DataSource_CSV/TagsList-Easter-Final.csv (MIT) — 来源 URL 未知（ZIP 文件中包含 MIT 许可证文件）

数据清理说明

为确保 lang_ja、lang_zh、lang_ko 字段的清洁，构建过程移除了不包含预期文字的翻译：

ja: 必须包含平假名/片假名/中日韩统一表意文字 (CJK)
zh: 必须包含中日韩统一表意文字 (CJK)
ko: 必须包含韩文字母 (Hangul) 此为数据质量清理步骤（并非额外来源）。

搜集汇总

数据集介绍

构建方式

在生成式人工智能图像标注领域，构建高质量的标签数据库是提升模型语义理解能力的关键。该数据集以CC0许可的基础SQLite数据库为起点，通过叠加一系列MIT许可的增量更新文件而形成最终版本。构建过程中，系统整合了来自多个知名图像标注平台（如Danbooru、Derpibooru、e621）的标签数据，并严格筛选了影响数据库实际变更的MIT许可源。为确保数据质量，构建流程还包含了对日语、中文等语言翻译字段的脚本校验与清理，移除了不符合预期字符集的条目，从而保障了多语言标签的准确性与一致性。

特点

该数据集的核心特征在于其融合了开放许可与结构化设计的双重优势。数据以关系型SQLite数据库和Parquet格式并存，既支持复杂的查询操作，也便于大规模分布式处理。标签体系不仅包含基本的ID、名称、类型和出现频次，还扩展了弃用状态、时间戳以及多语言翻译等元数据，为研究标签演变与跨语言对齐提供了丰富维度。特别值得注意的是，数据集针对Danbooru分割提供了优化的Parquet导出，其列结构经过精心设计，可直接服务于标签检索、图像生成提示工程等下游任务。

使用方法

在实践应用中，该数据集为生成式人工智能的图像标注与提示词研究提供了标准化资源。研究人员可通过SQLite接口执行复杂的关系查询，分析标签间的关联、弃用历史及来源追溯；亦可利用Parquet文件在数据科学框架中进行高效批处理，例如构建标签推荐系统或训练标签嵌入模型。数据集内嵌的完整性检查报告（如外键、孤儿标签检测）有助于用户评估数据质量，而清晰的许可溯源信息则确保了合规使用。对于Stable Diffusion、LoRA等图像生成模型的提示优化，该标签库能有效提升生成内容的语义精确度与多样性。

背景与挑战

背景概述

在生成式人工智能与图像合成技术迅猛发展的背景下，高质量的图像标签数据库成为驱动模型精准理解与生成视觉内容的关键基础设施。genai-image-tag-db-mit数据集由NEXTAltair等研究团队构建，其核心研究问题聚焦于整合多源、多语言的图像标签数据，为Stable Diffusion、LoRA等先进生成模型提供结构化、可扩展的语义标注支持。该数据集基于CC0许可的基础数据库，融入了MIT许可的增量数据，覆盖了Danbooru、Derpibooru、e621等知名图像社区的标签体系，显著提升了生成模型在多样化主题与风格上的可控性与准确性，对推动开放、可复现的AI艺术创作研究具有重要影响力。

当前挑战

该数据集旨在解决生成式人工智能领域中图像标签的标准化与多源整合问题，其核心挑战在于如何统一来自不同社区（如Danbooru、e621）的异构标签体系，这些体系在语义粒度、语言表达与分类逻辑上存在显著差异。构建过程中的挑战包括数据清洗的复杂性，例如需确保日语、中文等翻译字段的脚本纯净性，并处理标签的废弃、别名映射等动态更新问题。此外，在保持数据完整性与关系一致性的同时，平衡CC0与MIT等多重许可的合规性要求，也为数据集的可靠构建与分发带来了技术与管理上的双重考验。

常用场景

经典使用场景

在生成式人工智能领域，图像标签数据库是构建高质量文本到图像模型的关键资源。genai-image-tag-db-mit数据集整合了来自Danbooru、Derpibooru和e621等知名平台的标签数据，为Stable Diffusion、LoRA等模型的训练提供了丰富的语义标注基础。其经典使用场景在于支持图像生成系统中的提示词工程，通过提供结构化、多语言的标签信息，帮助研究者优化文本输入，从而生成更精准、多样化的视觉内容。

实际应用

在实际应用中，genai-image-tag-db-mit数据集广泛服务于创意产业与工具开发。例如，在AI绘画软件如Stable Diffusion WebUI中，它被用于增强标签自动补全功能，帮助用户快速构建精确的生成提示。同时，该数据集也支持内容过滤、个性化推荐系统以及多语言界面设计，为游戏、动漫、数字艺术等领域的自动化内容创作提供了高效的数据基础设施。

衍生相关工作

基于该数据集衍生的经典工作主要集中在标签优化与模型增强方向。例如，a1111-sd-webui-tagcomplete项目利用其数据改进了用户交互体验；而booru-japanese-tag等资源则推动了日语标签的机器翻译与对齐研究。此外，数据集的结构化设计也启发了后续的标签知识图谱构建、跨模态检索模型开发，为生成式AI社区的协作与创新奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集