Dataset Rising
收藏github2023-12-12 更新2024-05-31 收录
下载链接:
https://github.com/hearmeneigh/dataset-rising
下载链接
链接失效反馈官方服务:
资源简介:
一个用于创建和训练Stable Diffusion 1.x、Stable Diffusion 2.x和Stable Diffusion XL模型的工具链,支持使用自定义数据集。
本数据集旨在构建并训练Stable Diffusion 1.x、Stable Diffusion 2.x以及Stable Diffusion XL模型之工具链,并提供对自定义数据集的兼容支持。
创建时间:
2023-07-24
原始信息汇总
数据集概述
数据集名称: Dataset Rising
数据集功能:
- 支持从booru风格图像板爬取和下载元数据及图像。
- 允许合并多个图像源,包括自定义源。
- 可根据个人偏好和过滤器构建数据集。
- 用于训练Stable Diffusion 1.x, 2.x, 及XL模型。
- 可将模型转换为Stable Diffusion WebUI兼容模型。
技术细节:
- 使用Python
>=3.8和 Docker>=22.0.0。 - 支持的操作系统包括MacOS 13 (M1) 和 Ubuntu 22 (x86_64)。
- 使用MongoDB存储元数据,支持通过YAML配置文件和JSONL数据交换格式进行模块化操作。
数据集构建流程:
- 安装: 使用pip安装Dataset Rising,并启动MongoDB数据库。
- 下载元数据: 使用
dr-crawl下载图像板元数据,需设置唯一用户代理字符串以避免请求被封锁。 - 导入元数据: 将下载的元数据导入MongoDB数据库。
- 预览选择器: 使用选择器文件筛选数据库中的图像,生成高质量样本。
- 选择图像: 使用
dr-select从数据库中选择图像,构建数据集。 - 构建数据集: 使用
dr-join和dr-build组合和下载图像,构建最终数据集。 - 上传数据集: 将构建的数据集上传至Huggingface。
- 训练模型: 使用Huggingface Accelerate训练Stable Diffusion模型。
- 模型转换: 将模型转换为Stable Diffusion WebUI兼容格式。
数据集使用环境:
- 支持Nvidia的RTX30x0, RTX40x0, A100, 和 H100 GPUs。
数据集目标:
- 通过自定义数据集训练Stable Diffusion模型,提高模型的适应性和准确性。
搜集汇总
数据集介绍

构建方式
Dataset Rising 数据集的构建过程采用了模块化设计,结合了YAML配置文件和JSONL数据交换格式。首先,通过爬虫工具从'booru'风格的图像板中抓取元数据和图像,随后将多个图像源的数据进行整合。用户可以根据个人偏好和过滤器构建自定义数据集,并通过MongoDB数据库存储和管理元数据。最后,使用选择器筛选高质量样本,并通过构建工具生成最终的数据集。
使用方法
Dataset Rising 数据集的使用方法涵盖了从数据抓取到模型训练的全流程。用户首先通过爬虫工具获取元数据和图像,随后将数据导入MongoDB数据库进行管理。通过选择器筛选出高质量样本后,使用构建工具生成数据集。生成的数据集可直接用于训练Stable Diffusion模型,并支持多GPU训练和Huggingface平台的上传。训练完成后,模型可转换为Stable Diffusion WebUI兼容的格式,便于进一步应用。
背景与挑战
背景概述
Dataset Rising 是一个专为创建和训练 Stable Diffusion 1.x、2.x 及 XL 模型而设计的工具链,旨在通过自定义数据集提升模型的生成能力。该工具链由 HearMeNeigh 团队开发,主要面向图像生成领域的研究人员和开发者。其核心功能包括从 'booru' 风格图像板爬取元数据和图像、整合多源图像数据、构建个性化数据集以及训练 Stable Diffusion 模型。该工具链的模块化设计和 YAML 配置文件使其具有高度的灵活性和可扩展性,已在多种硬件环境中得到验证,包括 Nvidia 的 RTX30x0、RTX40x0、A100 和 H100 GPU。Dataset Rising 的推出为图像生成领域的研究提供了强大的数据支持,推动了 Stable Diffusion 模型的定制化发展。
当前挑战
Dataset Rising 在解决图像生成领域的挑战时,面临多重技术难题。首先,构建高质量数据集需要从多源图像板中爬取并筛选大量数据,如何确保数据的多样性和代表性是一个关键问题。其次,数据预处理和标签规范化过程中,如何有效处理标签冲突、重复数据以及低质量样本,直接影响模型的训练效果。此外,工具链的模块化设计虽然提升了灵活性,但也增加了配置和调试的复杂性,尤其是在多 GPU 训练和模型转换过程中,如何优化性能和资源利用率成为一大挑战。最后,数据隐私和版权问题在爬取和使用公开图像数据时也需谨慎处理,以避免法律风险。
常用场景
经典使用场景
Dataset Rising 工具链在生成和训练 Stable Diffusion 模型时展现了其强大的功能。通过从 'booru' 风格的图像板爬取元数据和图像,用户能够构建高度定制化的数据集,并利用这些数据集训练 Stable Diffusion 1.x、2.x 和 XL 模型。这一过程不仅支持多源图像数据的整合,还允许用户根据个人偏好和过滤器筛选数据,确保最终生成的数据集具有高质量和多样性。
解决学术问题
Dataset Rising 解决了生成模型训练中数据集的构建难题。传统方法往往依赖于公开数据集,难以满足特定领域或风格的需求。该工具链通过灵活的爬取和筛选机制,使研究人员能够快速构建符合特定研究目标的数据集,从而提升生成模型的训练效果。此外,其模块化设计和兼容性确保了在不同硬件环境下的高效运行,为生成模型的研究提供了强有力的支持。
实际应用
在实际应用中,Dataset Rising 被广泛用于艺术创作、游戏开发和广告设计等领域。通过训练定制化的 Stable Diffusion 模型,用户能够生成符合特定风格或主题的图像,极大地提升了创作效率。例如,游戏开发者可以利用该工具生成符合游戏世界观的素材,而广告设计师则能够快速生成多样化的广告图像,满足不同客户的需求。
数据集最近研究
最新研究方向
在生成式人工智能领域,Dataset Rising工具链的推出为Stable Diffusion模型的定制化训练提供了全新的解决方案。该工具链不仅支持从'booru'风格图像板爬取和下载元数据及图像,还能结合多种图像来源,构建个性化的数据集。通过模块化设计和YAML配置文件,用户可以灵活地选择和过滤数据,确保数据集的高质量。此外,Dataset Rising还支持将训练后的模型转换为Stable Diffusion WebUI兼容格式,进一步扩展了其应用场景。这一工具链的出现,不仅推动了Stable Diffusion模型在艺术创作、游戏设计等领域的应用,也为生成式AI的研究提供了更为丰富的数据支持。
以上内容由遇见数据集搜集并总结生成



