E621 Rising Dataset

github2023-12-12 更新2024-05-31 收录

下载链接：

https://github.com/hearmeneigh/e621-rising-configs

下载链接

链接失效反馈

官方服务：

资源简介：

用于构建和训练Stable Diffusion XL模型的数据集，包含从E621网站爬取的帖子和标签数据。

A dataset for constructing and training the Stable Diffusion XL model, comprising posts and tag data scraped from the E621 website.

创建时间：

2023-09-03

原始信息汇总

数据集概述

数据集名称

名称: E621 Rising Dataset
版本: v3

数据集构建与训练配置

目的: 用于构建和训练Stable Diffusion XL模型。
功能:
- 爬取E621网站的帖子和标签。
- 从爬取的数据中构建数据集。
- 下载图像。
- 训练Stable Diffusion 1.x, 2.x, 或 XL模型。
- 发布训练后的模型到Huggingface或S3。
- 转换模型为Stable Diffusion WebUI兼容版本。

数据集工具链

工具链: Dataset Rising

数据集要求

软件要求:
- Python >=3.8
- Docker >=22.0.0

数据集构建流程

爬取数据:
- 爬取E621的标签、标签别名和帖子元数据。
- 可选：从其他来源（如Gelbooru, Rule34, Danbooru）补充数据。
数据导入:
- 将爬取的元数据导入到Dataset Rising数据库。
数据选择:
- 使用多个选择器（如tier-1, tier-2, tier-3, tier-4, extras）筛选高质量样本。
数据集构建:
- 从筛选的样本中构建数据集，下载相关图像。
- 数据集格式：JSONL, Parquet。

模型训练

模型:
- 训练Stable Diffusion XL模型，包括基础模型和精炼模型。
训练配置:
- 使用预训练模型作为起点。
- 配置包括学习率、批量大小、精度等。
- 支持单GPU和多GPU训练。

数据集上传与发布

上传:
- 将构建的数据集上传到Huggingface。
发布:
- 发布训练后的模型到Huggingface或S3。

开发者工具

多平台构建:
- 支持本地机器和EKS/Kubernetes环境的多平台Docker构建。

数据集使用

快速开始

使用预构建Docker镜像:
- 镜像包含截至2023-09-21的E621标签、标签别名和帖子元数据。
- 基于MongoDB 6.x。
- 支持x86_64和arm64架构。

数据集预览与测试

预览选择器:
- 通过HTML格式预览选择器筛选的样本。
测试选择器:
- 分析选择器中的缺口，如缺失的艺术家。

数据集构建与模型训练

构建数据集:
- 从筛选的样本中构建数据集，下载图像。
训练模型:
- 使用训练脚本训练Stable Diffusion XL模型。
- 支持使用Accelerate进行多GPU训练。

数据集上传

上传到Huggingface:
- 使用Huggingface的API上传构建的数据集。

开发者指南

多平台构建:
- 提供本地和Kubernetes环境下的Docker构建指南。

搜集汇总

数据集介绍

构建方式

E621 Rising数据集的构建过程依托于Dataset Rising工具链，通过从E621平台爬取帖子、标签及其别名数据，并将这些数据导入MongoDB数据库。构建过程中，用户可以选择从其他数据源（如Gelbooru、Rule34和Danbooru）追加数据，以丰富数据集的内容。数据集的核心构建步骤包括数据爬取、导入、选择器测试以及最终的数据集生成。整个过程通过Docker容器化部署，确保环境的一致性和可重复性。

使用方法

E621 Rising数据集的使用方法主要围绕Stable Diffusion模型的训练展开。用户可以通过预构建的Docker镜像快速启动环境，并使用提供的脚本进行数据爬取、导入和选择器测试。数据集生成后，用户可将其上传至Huggingface平台，并通过命令行工具进行模型训练。训练过程中，用户可以选择不同的模型（如Stable Diffusion XL）和训练参数（如批次大小和学习率），并支持多GPU加速训练。训练完成后，模型可转换为Stable Diffusion WebUI兼容的格式，便于进一步的应用和部署。

背景与挑战

背景概述

E621 Rising Dataset 是一个专为训练 Stable Diffusion XL 模型而构建的数据集，旨在通过从 E621 等图像社区爬取数据，生成高质量的图像-标签对，以支持生成式模型的训练。该数据集由 HearMeNeigh 团队于 2023 年创建，主要依托于 Dataset Rising 工具链，结合了 E621、Gelbooru、Rule34 和 Danbooru 等多个来源的图像元数据。其核心研究问题在于如何通过多源数据的整合与筛选，构建一个适用于生成式 AI 模型的多样化、高质量数据集。该数据集对生成式 AI 领域，尤其是图像生成模型的训练与优化，具有重要的推动作用。

当前挑战

E621 Rising Dataset 在构建过程中面临多重挑战。首先，数据爬取与整合的复杂性较高，E621 等平台的元数据规模庞大，爬取过程对服务器资源消耗巨大，且需要处理不同来源的数据格式与标签体系差异。其次，数据质量的控制是关键挑战，如何通过多级筛选器（tiered selectors）从海量数据中提取高质量样本，同时避免噪声与低质量图像的干扰，是数据集构建的核心难题。此外，数据集的多样性与平衡性也需精心设计，以确保模型训练时能够覆盖广泛的图像风格与主题。最后，数据集的构建与训练过程对计算资源要求极高，尤其是在多 GPU 环境下进行大规模模型训练时，资源管理与优化成为不可忽视的挑战。

常用场景

经典使用场景

E621 Rising Dataset 主要用于训练和微调 Stable Diffusion XL 模型，特别是在生成高质量图像方面。通过从 E621 平台爬取大量的图像和标签数据，该数据集为模型提供了丰富的训练样本，使其能够生成具有高度细节和多样性的图像。该数据集的使用场景涵盖了从艺术创作到图像生成的多个领域，尤其是在需要生成特定风格或主题的图像时，表现出色。

解决学术问题

E621 Rising Dataset 解决了生成模型在训练过程中面临的数据稀缺和多样性不足的问题。通过提供大量标注良好的图像数据，该数据集显著提升了模型在生成复杂图像时的表现。此外，数据集中的标签系统为研究人员提供了更精细的控制手段，使得模型能够更好地理解和生成特定主题的图像，从而推动了生成模型在学术研究中的进一步发展。

实际应用

在实际应用中，E621 Rising Dataset 被广泛用于艺术创作、游戏开发以及影视特效等领域。通过训练基于该数据集的模型，艺术家和设计师能够快速生成符合特定风格要求的图像，极大地提高了创作效率。此外，该数据集还被用于开发个性化的图像生成工具，帮助用户在社交媒体和内容创作中生成独特的视觉内容。

数据集最近研究