Dataset Rising

github2023-12-12 更新2024-05-31 收录

下载链接：

https://github.com/hearmeneigh/dataset-rising

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于创建和训练Stable Diffusion 1.x、Stable Diffusion 2.x和Stable Diffusion XL模型的工具链，支持使用自定义数据集。

本数据集旨在构建并训练Stable Diffusion 1.x、Stable Diffusion 2.x以及Stable Diffusion XL模型之工具链，并提供对自定义数据集的兼容支持。

创建时间：

2023-07-24

原始信息汇总

数据集概述

数据集名称： Dataset Rising

数据集功能：

支持从booru风格图像板爬取和下载元数据及图像。
允许合并多个图像源，包括自定义源。
可根据个人偏好和过滤器构建数据集。
用于训练Stable Diffusion 1.x, 2.x, 及XL模型。
可将模型转换为Stable Diffusion WebUI兼容模型。

技术细节：

使用Python >=3.8 和 Docker >=22.0.0。
支持的操作系统包括MacOS 13 (M1) 和 Ubuntu 22 (x86_64)。
使用MongoDB存储元数据，支持通过YAML配置文件和JSONL数据交换格式进行模块化操作。

数据集构建流程：

安装： 使用pip安装Dataset Rising，并启动MongoDB数据库。
下载元数据： 使用dr-crawl下载图像板元数据，需设置唯一用户代理字符串以避免请求被封锁。
导入元数据： 将下载的元数据导入MongoDB数据库。
预览选择器： 使用选择器文件筛选数据库中的图像，生成高质量样本。
选择图像： 使用dr-select从数据库中选择图像，构建数据集。
构建数据集： 使用dr-join和dr-build组合和下载图像，构建最终数据集。
上传数据集： 将构建的数据集上传至Huggingface。
训练模型： 使用Huggingface Accelerate训练Stable Diffusion模型。
模型转换： 将模型转换为Stable Diffusion WebUI兼容格式。

数据集使用环境：

支持Nvidia的RTX30x0, RTX40x0, A100, 和 H100 GPUs。

数据集目标：

通过自定义数据集训练Stable Diffusion模型，提高模型的适应性和准确性。

搜集汇总

数据集介绍

构建方式

Dataset Rising 数据集的构建过程采用了模块化设计，结合了YAML配置文件和JSONL数据交换格式。首先，通过爬虫工具从'booru'风格的图像板中抓取元数据和图像，随后将多个图像源的数据进行整合。用户可以根据个人偏好和过滤器构建自定义数据集，并通过MongoDB数据库存储和管理元数据。最后，使用选择器筛选高质量样本，并通过构建工具生成最终的数据集。

使用方法

Dataset Rising 数据集的使用方法涵盖了从数据抓取到模型训练的全流程。用户首先通过爬虫工具获取元数据和图像，随后将数据导入MongoDB数据库进行管理。通过选择器筛选出高质量样本后，使用构建工具生成数据集。生成的数据集可直接用于训练Stable Diffusion模型，并支持多GPU训练和Huggingface平台的上传。训练完成后，模型可转换为Stable Diffusion WebUI兼容的格式，便于进一步应用。

背景与挑战

背景概述

Dataset Rising 是一个专为创建和训练 Stable Diffusion 1.x、2.x 及 XL 模型而设计的工具链，旨在通过自定义数据集提升模型的生成能力。该工具链由 HearMeNeigh 团队开发，主要面向图像生成领域的研究人员和开发者。其核心功能包括从 'booru' 风格图像板爬取元数据和图像、整合多源图像数据、构建个性化数据集以及训练 Stable Diffusion 模型。该工具链的模块化设计和 YAML 配置文件使其具有高度的灵活性和可扩展性，已在多种硬件环境中得到验证，包括 Nvidia 的 RTX30x0、RTX40x0、A100 和 H100 GPU。Dataset Rising 的推出为图像生成领域的研究提供了强大的数据支持，推动了 Stable Diffusion 模型的定制化发展。

当前挑战

Dataset Rising 在解决图像生成领域的挑战时，面临多重技术难题。首先，构建高质量数据集需要从多源图像板中爬取并筛选大量数据，如何确保数据的多样性和代表性是一个关键问题。其次，数据预处理和标签规范化过程中，如何有效处理标签冲突、重复数据以及低质量样本，直接影响模型的训练效果。此外，工具链的模块化设计虽然提升了灵活性，但也增加了配置和调试的复杂性，尤其是在多 GPU 训练和模型转换过程中，如何优化性能和资源利用率成为一大挑战。最后，数据隐私和版权问题在爬取和使用公开图像数据时也需谨慎处理，以避免法律风险。

常用场景

经典使用场景

Dataset Rising 工具链在生成和训练 Stable Diffusion 模型时展现了其强大的功能。通过从 'booru' 风格的图像板爬取元数据和图像，用户能够构建高度定制化的数据集，并利用这些数据集训练 Stable Diffusion 1.x、2.x 和 XL 模型。这一过程不仅支持多源图像数据的整合，还允许用户根据个人偏好和过滤器筛选数据，确保最终生成的数据集具有高质量和多样性。

解决学术问题

Dataset Rising 解决了生成模型训练中数据集的构建难题。传统方法往往依赖于公开数据集，难以满足特定领域或风格的需求。该工具链通过灵活的爬取和筛选机制，使研究人员能够快速构建符合特定研究目标的数据集，从而提升生成模型的训练效果。此外，其模块化设计和兼容性确保了在不同硬件环境下的高效运行，为生成模型的研究提供了强有力的支持。

实际应用

在实际应用中，Dataset Rising 被广泛用于艺术创作、游戏开发和广告设计等领域。通过训练定制化的 Stable Diffusion 模型，用户能够生成符合特定风格或主题的图像，极大地提升了创作效率。例如，游戏开发者可以利用该工具生成符合游戏世界观的素材，而广告设计师则能够快速生成多样化的广告图像，满足不同客户的需求。

数据集最近研究