five

E621 Rising Dataset|机器学习数据集|动漫艺术数据集

收藏
github2023-12-12 更新2024-05-31 收录
机器学习
动漫艺术
下载链接:
https://github.com/hearmeneigh/e621-rising-configs
下载链接
链接失效反馈
资源简介:
用于构建和训练Stable Diffusion XL模型的数据集,包含从E621网站爬取的帖子和标签数据。

A dataset for constructing and training the Stable Diffusion XL model, comprising posts and tag data scraped from the E621 website.
创建时间:
2023-09-03
原始信息汇总

数据集概述

数据集名称

  • 名称: E621 Rising Dataset
  • 版本: v3

数据集构建与训练配置

  • 目的: 用于构建和训练Stable Diffusion XL模型。
  • 功能:
    • 爬取E621网站的帖子和标签。
    • 从爬取的数据中构建数据集。
    • 下载图像。
    • 训练Stable Diffusion 1.x, 2.x, 或 XL模型。
    • 发布训练后的模型到Huggingface或S3。
    • 转换模型为Stable Diffusion WebUI兼容版本。

数据集工具链

  • 工具链: Dataset Rising

数据集要求

  • 软件要求:
    • Python >=3.8
    • Docker >=22.0.0

数据集构建流程

  1. 爬取数据:
    • 爬取E621的标签、标签别名和帖子元数据。
    • 可选:从其他来源(如Gelbooru, Rule34, Danbooru)补充数据。
  2. 数据导入:
    • 将爬取的元数据导入到Dataset Rising数据库。
  3. 数据选择:
    • 使用多个选择器(如tier-1, tier-2, tier-3, tier-4, extras)筛选高质量样本。
  4. 数据集构建:
    • 从筛选的样本中构建数据集,下载相关图像。
    • 数据集格式:JSONL, Parquet。

模型训练

  • 模型:
    • 训练Stable Diffusion XL模型,包括基础模型和精炼模型。
  • 训练配置:
    • 使用预训练模型作为起点。
    • 配置包括学习率、批量大小、精度等。
    • 支持单GPU和多GPU训练。

数据集上传与发布

  • 上传:
    • 将构建的数据集上传到Huggingface。
  • 发布:
    • 发布训练后的模型到Huggingface或S3。

开发者工具

  • 多平台构建:
    • 支持本地机器和EKS/Kubernetes环境的多平台Docker构建。

数据集使用

快速开始

  • 使用预构建Docker镜像:
    • 镜像包含截至2023-09-21的E621标签、标签别名和帖子元数据。
    • 基于MongoDB 6.x。
    • 支持x86_64和arm64架构。

数据集预览与测试

  • 预览选择器:
    • 通过HTML格式预览选择器筛选的样本。
  • 测试选择器:
    • 分析选择器中的缺口,如缺失的艺术家。

数据集构建与模型训练

  • 构建数据集:
    • 从筛选的样本中构建数据集,下载图像。
  • 训练模型:
    • 使用训练脚本训练Stable Diffusion XL模型。
    • 支持使用Accelerate进行多GPU训练。

数据集上传

  • 上传到Huggingface:
    • 使用Huggingface的API上传构建的数据集。

开发者指南

  • 多平台构建:
    • 提供本地和Kubernetes环境下的Docker构建指南。
AI搜集汇总
数据集介绍
main_image_url
构建方式
E621 Rising数据集的构建过程依托于Dataset Rising工具链,通过从E621平台爬取帖子、标签及其别名数据,并将这些数据导入MongoDB数据库。构建过程中,用户可以选择从其他数据源(如Gelbooru、Rule34和Danbooru)追加数据,以丰富数据集的内容。数据集的核心构建步骤包括数据爬取、导入、选择器测试以及最终的数据集生成。整个过程通过Docker容器化部署,确保环境的一致性和可重复性。
使用方法
E621 Rising数据集的使用方法主要围绕Stable Diffusion模型的训练展开。用户可以通过预构建的Docker镜像快速启动环境,并使用提供的脚本进行数据爬取、导入和选择器测试。数据集生成后,用户可将其上传至Huggingface平台,并通过命令行工具进行模型训练。训练过程中,用户可以选择不同的模型(如Stable Diffusion XL)和训练参数(如批次大小和学习率),并支持多GPU加速训练。训练完成后,模型可转换为Stable Diffusion WebUI兼容的格式,便于进一步的应用和部署。
背景与挑战
背景概述
E621 Rising Dataset 是一个专为训练 Stable Diffusion XL 模型而构建的数据集,旨在通过从 E621 等图像社区爬取数据,生成高质量的图像-标签对,以支持生成式模型的训练。该数据集由 HearMeNeigh 团队于 2023 年创建,主要依托于 Dataset Rising 工具链,结合了 E621、Gelbooru、Rule34 和 Danbooru 等多个来源的图像元数据。其核心研究问题在于如何通过多源数据的整合与筛选,构建一个适用于生成式 AI 模型的多样化、高质量数据集。该数据集对生成式 AI 领域,尤其是图像生成模型的训练与优化,具有重要的推动作用。
当前挑战
E621 Rising Dataset 在构建过程中面临多重挑战。首先,数据爬取与整合的复杂性较高,E621 等平台的元数据规模庞大,爬取过程对服务器资源消耗巨大,且需要处理不同来源的数据格式与标签体系差异。其次,数据质量的控制是关键挑战,如何通过多级筛选器(tiered selectors)从海量数据中提取高质量样本,同时避免噪声与低质量图像的干扰,是数据集构建的核心难题。此外,数据集的多样性与平衡性也需精心设计,以确保模型训练时能够覆盖广泛的图像风格与主题。最后,数据集的构建与训练过程对计算资源要求极高,尤其是在多 GPU 环境下进行大规模模型训练时,资源管理与优化成为不可忽视的挑战。
常用场景
经典使用场景
E621 Rising Dataset 主要用于训练和微调 Stable Diffusion XL 模型,特别是在生成高质量图像方面。通过从 E621 平台爬取大量的图像和标签数据,该数据集为模型提供了丰富的训练样本,使其能够生成具有高度细节和多样性的图像。该数据集的使用场景涵盖了从艺术创作到图像生成的多个领域,尤其是在需要生成特定风格或主题的图像时,表现出色。
解决学术问题
E621 Rising Dataset 解决了生成模型在训练过程中面临的数据稀缺和多样性不足的问题。通过提供大量标注良好的图像数据,该数据集显著提升了模型在生成复杂图像时的表现。此外,数据集中的标签系统为研究人员提供了更精细的控制手段,使得模型能够更好地理解和生成特定主题的图像,从而推动了生成模型在学术研究中的进一步发展。
实际应用
在实际应用中,E621 Rising Dataset 被广泛用于艺术创作、游戏开发以及影视特效等领域。通过训练基于该数据集的模型,艺术家和设计师能够快速生成符合特定风格要求的图像,极大地提高了创作效率。此外,该数据集还被用于开发个性化的图像生成工具,帮助用户在社交媒体和内容创作中生成独特的视觉内容。
数据集最近研究
最新研究方向
E621 Rising Dataset作为基于E621平台数据构建的大规模图像数据集,近年来在生成模型领域的研究中备受关注。该数据集通过整合E621、Gelbooru、Rule34等多个来源的图像和标签数据,为Stable Diffusion XL等生成模型的训练提供了丰富的素材。当前,研究者们正致力于利用该数据集优化生成模型的图像质量和多样性,特别是在高分辨率图像生成和风格迁移方面取得了显著进展。此外,随着多模态生成模型的兴起,E621 Rising Dataset也被广泛应用于文本到图像的生成任务中,推动了生成模型在艺术创作、游戏设计等领域的应用。该数据集的开放性和多样性为生成模型的研究提供了新的可能性,成为该领域不可或缺的重要资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录