genai-image-tag-db-CC4

Hugging Face2025-12-23 更新2025-12-24 收录

下载链接：

https://huggingface.co/datasets/NEXTAltair/genai-image-tag-db-CC4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'GenAI Image Tag DB (cc-by-4.0)'，是一个用于图像生成及相关任务的标签数据库。数据集包含一个SQLite数据库和一个用于Hugging Face数据集查看器的Parquet导出文件。它源自多个来源，包括Danbooru、e621等多个booru站点，旨在用于标签查找、别名解析和翻译工作流。数据集支持多语言（英语和日语），属于文本检索和文本分类任务范畴。

The dataset named 'GenAI Image Tag DB (cc-by-4.0)' is a tag database tailored for image generation and its associated tasks. It contains a SQLite database and a Parquet export file for the Hugging Face Dataset Viewer. Sourced from multiple platforms including multiple booru sites such as Danbooru and e621, it is intended for tag lookup, alias resolution and translation workflows. The dataset supports multiple languages (English and Japanese) and falls within the scope of text retrieval and text classification tasks.

创建时间：

2025-12-19

原始信息汇总

GenAI Image Tag DB (CC-BY-4.0) 数据集概述

基本信息

数据集名称: GenAI Image Tag DB (cc-by-4.0)
许可证: CC-BY-4.0
支持语言: 英语 (en)、日语 (ja)
规模类别: 1M < n < 10M (数据量在100万到1000万之间)
任务类别: 文本检索 (text-retrieval)、文本分类 (text-classification)
标签: tag-database, image-generation, stable-diffusion, lora, booru, danbooru, e621, derpibooru

数据集内容与结构

主要数据文件: genai-image-tag-db-cc4.sqlite (SQLite 数据库)
预览数据文件: parquet_danbooru/*.parquet (Parquet 格式导出，仅包含 Danbooru 数据子集，用于 Hugging Face Dataset Viewer 预览)
构建清单: build_manifest.json (包含修订版本和统计信息)
报告目录: report/ (包含源影响和健康检查信息)

数据来源与构建

基础数据库: cc0_local
基础数据库信息路径: ci_output/out_db_cc0/genai-image-tag-db-cc0.sqlite
影响此构建的数据源 (仅列出 db_changes > 0 的源):
- 来自 https://huggingface.co/datasets/deepghs/site_tags 的 site_tags (CC-BY-4.0) 数据，涵盖以下网站：
  - anime-pictures.net
  - booru.allthefallen.moe
  - chan.sankakucomplex.com
  - danbooru.donmai.us
  - e621.net
  - en.pixiv.net
  - gelbooru.com
  - hypnohub.net
  - konachan.com
  - konachan.net
  - lolibooru.moe
  - pixiv.net
  - rule34.xxx
  - safebooru.donmai.us
  - wallhaven.cc
  - xbooru.com
  - yande.re
  - zerochan.net
- TAG_TRANSLATIONS

数据集用途

本数据集旨在用于标签查找、别名解析和翻译工作流。

搜集汇总

数据集介绍

构建方式

在生成式人工智能图像创作领域，标签数据库的构建对于提升模型语义理解能力至关重要。GenAI Image Tag DB (CC4) 的构建基于CC0许可的初始数据库，通过整合多个知名图像分享平台的标签数据实现扩展。具体而言，该数据集汇集了来自Danbooru、e621、Pixiv、Gelbooru等十余个站点的标签信息，这些数据均以SQLite格式存储并经过统一处理。构建过程中，仅纳入实际产生数据库变更的数据源，确保了内容的有效性和针对性，最终形成包含数百万条记录的综合性标签库。

特点

该数据集的核心特征在于其广泛覆盖与结构化设计。它融合了多元文化背景下的图像标签，主要包含英文和日文标签，并特别注重标签的别名解析与翻译工作流。数据集以SQLite数据库为主要存储形式，便于高效查询与管理；同时提供了Parquet格式的派生导出，方便在Hugging Face等平台进行数据预览与快速访问。其规模介于一百万到一千万条记录之间，兼具丰富性与可操作性，为文本检索与分类任务提供了扎实的基础。

使用方法

在应用层面，该数据集主要服务于标签查找、别名解析及翻译流程。研究人员和开发者可直接使用提供的SQLite数据库进行高效的本地查询，或通过Parquet文件在分布式环境中进行数据分析。数据集适用于训练和优化生成式图像模型的提示词理解模块，例如为Stable Diffusion或LoRA等模型提供精准的语义标签支持。使用时应遵循CC-BY-4.0许可协议，并参考构建清单与健康检查报告，以确保数据应用的合规性与可靠性。

背景与挑战

背景概述

在生成式人工智能迅猛发展的浪潮中，高质量的图像生成模型如Stable Diffusion和LoRA的训练，亟需大规模、结构化的标签数据作为支撑。GenAI Image Tag DB (CC4) 数据集应运而生，它由研究社区基于CC-BY-4.0许可构建，整合了来自Danbooru、e621、Pixiv等十余个主流二次元与艺术图像社区的标签体系。该数据集的核心使命在于为文本到图像的生成任务提供一个统一的、可检索的语义标签数据库，通过解决标签别名、多语言翻译及跨平台标准化问题，显著提升了提示词工程的精确性与模型对复杂概念的理解能力，从而推动了可控图像生成领域的技术进步。

当前挑战

该数据集旨在解决的领域核心挑战，是图像生成中文本提示与视觉内容之间的语义对齐难题。具体而言，如何将用户输入的、可能模糊或多义的自然语言描述，准确映射到生成模型能够理解的、离散且规范的视觉概念标签上，是一个关键瓶颈。在构建过程中，挑战同样艰巨：需要从多个异构的在线图库中爬取、清洗和融合海量标签数据，处理各平台标签体系在粒度、命名习惯与语言上的巨大差异，并确保合并后的数据库在保持丰富性的同时，具备良好的一致性与可追溯性，这涉及复杂的实体链接与数据治理工作。

常用场景

经典使用场景

在生成式人工智能领域，图像标签数据库是构建高质量文本到图像生成模型的关键资源。GenAI Image Tag DB (CC4) 作为整合了Danbooru、e621、Derpibooru等多个知名图像社区标签的综合性数据集，其经典使用场景在于为Stable Diffusion、LoRA等先进生成模型提供结构化且语义丰富的标签信息。研究人员和开发者利用该数据集进行标签检索、别名解析和翻译工作流，从而优化模型对复杂提示词的理解与生成能力，确保生成图像在风格、主题和细节上符合预期。

解决学术问题

该数据集有效解决了生成式人工智能研究中标签语义歧义、多语言对齐以及大规模标签系统标准化等常见学术问题。通过整合多个来源的标签数据并建立统一的翻译与别名映射，它显著提升了文本到图像生成任务中提示词处理的准确性和一致性。其意义在于为学术界提供了一个可靠且可扩展的标签知识库，促进了跨语言、跨文化的内容生成研究，对推动生成模型在细粒度控制与可解释性方面的进展具有深远影响。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在标签增强的生成模型训练与评估框架上。例如，基于其构建的标签翻译和扩展系统被用于改进Stable Diffusion等模型对非英语提示词的理解能力。此外，许多研究利用该数据集进行标签关系挖掘和视觉概念嵌入学习，开发出更精准的提示词工程工具和可控生成技术。这些工作不仅深化了生成模型与结构化知识结合的探索，也为社区贡献了可复用的数据处理管道和基准测试方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集