E621 Rising Dataset
收藏github2023-12-12 更新2024-05-31 收录
下载链接:
https://github.com/hearmeneigh/e621-rising-configs
下载链接
链接失效反馈官方服务:
资源简介:
用于构建和训练Stable Diffusion XL模型的数据集,包含从E621网站爬取的帖子和标签数据。
A dataset for constructing and training the Stable Diffusion XL model, comprising posts and tag data scraped from the E621 website.
创建时间:
2023-09-03
原始信息汇总
数据集概述
数据集名称
- 名称: E621 Rising Dataset
- 版本: v3
数据集构建与训练配置
- 目的: 用于构建和训练Stable Diffusion XL模型。
- 功能:
- 爬取E621网站的帖子和标签。
- 从爬取的数据中构建数据集。
- 下载图像。
- 训练Stable Diffusion 1.x, 2.x, 或 XL模型。
- 发布训练后的模型到Huggingface或S3。
- 转换模型为Stable Diffusion WebUI兼容版本。
数据集工具链
- 工具链: Dataset Rising
数据集要求
- 软件要求:
- Python
>=3.8 - Docker
>=22.0.0
- Python
数据集构建流程
- 爬取数据:
- 爬取E621的标签、标签别名和帖子元数据。
- 可选:从其他来源(如Gelbooru, Rule34, Danbooru)补充数据。
- 数据导入:
- 将爬取的元数据导入到Dataset Rising数据库。
- 数据选择:
- 使用多个选择器(如tier-1, tier-2, tier-3, tier-4, extras)筛选高质量样本。
- 数据集构建:
- 从筛选的样本中构建数据集,下载相关图像。
- 数据集格式:JSONL, Parquet。
模型训练
- 模型:
- 训练Stable Diffusion XL模型,包括基础模型和精炼模型。
- 训练配置:
- 使用预训练模型作为起点。
- 配置包括学习率、批量大小、精度等。
- 支持单GPU和多GPU训练。
数据集上传与发布
- 上传:
- 将构建的数据集上传到Huggingface。
- 发布:
- 发布训练后的模型到Huggingface或S3。
开发者工具
- 多平台构建:
- 支持本地机器和EKS/Kubernetes环境的多平台Docker构建。
数据集使用
快速开始
- 使用预构建Docker镜像:
- 镜像包含截至2023-09-21的E621标签、标签别名和帖子元数据。
- 基于MongoDB 6.x。
- 支持x86_64和arm64架构。
数据集预览与测试
- 预览选择器:
- 通过HTML格式预览选择器筛选的样本。
- 测试选择器:
- 分析选择器中的缺口,如缺失的艺术家。
数据集构建与模型训练
- 构建数据集:
- 从筛选的样本中构建数据集,下载图像。
- 训练模型:
- 使用训练脚本训练Stable Diffusion XL模型。
- 支持使用Accelerate进行多GPU训练。
数据集上传
- 上传到Huggingface:
- 使用Huggingface的API上传构建的数据集。
开发者指南
- 多平台构建:
- 提供本地和Kubernetes环境下的Docker构建指南。
搜集汇总
数据集介绍

构建方式
E621 Rising数据集的构建过程依托于Dataset Rising工具链,通过从E621平台爬取帖子、标签及其别名数据,并将这些数据导入MongoDB数据库。构建过程中,用户可以选择从其他数据源(如Gelbooru、Rule34和Danbooru)追加数据,以丰富数据集的内容。数据集的核心构建步骤包括数据爬取、导入、选择器测试以及最终的数据集生成。整个过程通过Docker容器化部署,确保环境的一致性和可重复性。
使用方法
E621 Rising数据集的使用方法主要围绕Stable Diffusion模型的训练展开。用户可以通过预构建的Docker镜像快速启动环境,并使用提供的脚本进行数据爬取、导入和选择器测试。数据集生成后,用户可将其上传至Huggingface平台,并通过命令行工具进行模型训练。训练过程中,用户可以选择不同的模型(如Stable Diffusion XL)和训练参数(如批次大小和学习率),并支持多GPU加速训练。训练完成后,模型可转换为Stable Diffusion WebUI兼容的格式,便于进一步的应用和部署。
背景与挑战
背景概述
E621 Rising Dataset 是一个专为训练 Stable Diffusion XL 模型而构建的数据集,旨在通过从 E621 等图像社区爬取数据,生成高质量的图像-标签对,以支持生成式模型的训练。该数据集由 HearMeNeigh 团队于 2023 年创建,主要依托于 Dataset Rising 工具链,结合了 E621、Gelbooru、Rule34 和 Danbooru 等多个来源的图像元数据。其核心研究问题在于如何通过多源数据的整合与筛选,构建一个适用于生成式 AI 模型的多样化、高质量数据集。该数据集对生成式 AI 领域,尤其是图像生成模型的训练与优化,具有重要的推动作用。
当前挑战
E621 Rising Dataset 在构建过程中面临多重挑战。首先,数据爬取与整合的复杂性较高,E621 等平台的元数据规模庞大,爬取过程对服务器资源消耗巨大,且需要处理不同来源的数据格式与标签体系差异。其次,数据质量的控制是关键挑战,如何通过多级筛选器(tiered selectors)从海量数据中提取高质量样本,同时避免噪声与低质量图像的干扰,是数据集构建的核心难题。此外,数据集的多样性与平衡性也需精心设计,以确保模型训练时能够覆盖广泛的图像风格与主题。最后,数据集的构建与训练过程对计算资源要求极高,尤其是在多 GPU 环境下进行大规模模型训练时,资源管理与优化成为不可忽视的挑战。
常用场景
经典使用场景
E621 Rising Dataset 主要用于训练和微调 Stable Diffusion XL 模型,特别是在生成高质量图像方面。通过从 E621 平台爬取大量的图像和标签数据,该数据集为模型提供了丰富的训练样本,使其能够生成具有高度细节和多样性的图像。该数据集的使用场景涵盖了从艺术创作到图像生成的多个领域,尤其是在需要生成特定风格或主题的图像时,表现出色。
解决学术问题
E621 Rising Dataset 解决了生成模型在训练过程中面临的数据稀缺和多样性不足的问题。通过提供大量标注良好的图像数据,该数据集显著提升了模型在生成复杂图像时的表现。此外,数据集中的标签系统为研究人员提供了更精细的控制手段,使得模型能够更好地理解和生成特定主题的图像,从而推动了生成模型在学术研究中的进一步发展。
实际应用
在实际应用中,E621 Rising Dataset 被广泛用于艺术创作、游戏开发以及影视特效等领域。通过训练基于该数据集的模型,艺术家和设计师能够快速生成符合特定风格要求的图像,极大地提高了创作效率。此外,该数据集还被用于开发个性化的图像生成工具,帮助用户在社交媒体和内容创作中生成独特的视觉内容。
数据集最近研究
最新研究方向
E621 Rising Dataset作为基于E621平台数据构建的大规模图像数据集,近年来在生成模型领域的研究中备受关注。该数据集通过整合E621、Gelbooru、Rule34等多个来源的图像和标签数据,为Stable Diffusion XL等生成模型的训练提供了丰富的素材。当前,研究者们正致力于利用该数据集优化生成模型的图像质量和多样性,特别是在高分辨率图像生成和风格迁移方面取得了显著进展。此外,随着多模态生成模型的兴起,E621 Rising Dataset也被广泛应用于文本到图像的生成任务中,推动了生成模型在艺术创作、游戏设计等领域的应用。该数据集的开放性和多样性为生成模型的研究提供了新的可能性,成为该领域不可或缺的重要资源。
以上内容由遇见数据集搜集并总结生成



