hearmeneigh/e621-rising-v3-curated
收藏Hugging Face2023-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hearmeneigh/e621-rising-v3-curated
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: source_id
dtype: string
- name: source
dtype: string
- name: image
dtype: image
- name: tags
sequence: string
- name: url
dtype: string
- name: text
dtype: string
- name: selector
dtype: string
splits:
- name: train
num_bytes: 53726659168.0
num_examples: 279296
download_size: 53423627875
dataset_size: 53726659168.0
pretty_name: 'E621 Rising V3 Image Dataset'
size_categories:
- 100K<n<1M
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
tags:
- furry
- anthro
- nsfw
- e621
- booru
- imagebooru
- imageboard
- gelbooru
- danbooru
- rule34
- not-for-all-audiences
---
<div style='background: #ffeef1; border: 1px solid #fd91a4; padding:1em; border-radius:3px; margin-bottom:2em;'>
<h3 style='margin:0'>NSFW</h3>
<p style='margin:0'>This dataset is not suitable for use by minors. The dataset contains X-rated/NFSW content.</p>
</div>
# E621 Rising V3: Curated Image Dataset
* **279,296** images (53GB) downloaded from `e621.net` (90% of samples), `gelbooru.com`, `danbooru.com`, and `rule34.xxx`
* **6,820** [tags](https://huggingface.co/datasets/hearmeneigh/e621-rising-v3-preliminary-data/blob/main/tag-counts.by-name.json)
* Used to train [E621 Rising v3](https://huggingface.co/hearmeneigh/e621-rising-v3) SDXL model
This dataset was created with [Dataset Rising](https://github.com/hearmeneigh/dataset-rising) toolchain and a [custom configuration](https://github.com/hearmeneigh/e621-rising-configs).
You can use these tools to train your own version!
## Image Processing
* Only `jpg` and `png` images were considered
* Image width and height have been clamped to `(0, 1024]px`; larger images have been resized to meet the limit
* Alpha channels have been removed
* All images have been converted to `jpg` format
* All images have been converted to TrueColor `RGB`
* All images have been verified to load with `Pillow`
* Metadata from E621 is [available here](https://huggingface.co/datasets/hearmeneigh/e621-rising-v3-preliminary-data)
## Tags
Comprehensive list of 6,820 tags and counts:
* [By name](https://huggingface.co/datasets/hearmeneigh/e621-rising-v3-preliminary-data/blob/main/tag-counts.by-name.json)
* [By count](https://huggingface.co/datasets/hearmeneigh/e621-rising-v3-preliminary-data/blob/main/tag-counts.by-count.json)
### Additional Tags
* `rating_explicit`
* `rating_questionable`
* `rating_safe`
* `rising_masterpiece`
* `rising_unpopular`
* `favorites_below_X` (25, 50, 100, 250, 500, 1000)
* `favorites_above_X` (250, 500, 1000, 2000, 3000, 4000)
* `score_below_X` (0, 25, 50, 100, 250, 500)
* `score_above_X` (100, 250, 500, 1000, 1500, 2000)
数据集信息:
特征:
- 字段名:source_id,数据类型:字符串
- 字段名:source,数据类型:字符串
- 字段名:image,数据类型:图像
- 字段名:tags,数据类型:字符串序列
- 字段名:url,数据类型:字符串
- 字段名:text,数据类型:字符串
- 字段名:selector,数据类型:字符串
数据集划分:
- 划分名称:训练集(train),字节大小:53726659168.0,样本数量:279296
下载总大小:53423627875
数据集总存储大小:53726659168.0
展示名称:E621 Rising V3 图像数据集 (E621 Rising V3 Image Dataset)
样本量范围:100K < n < 1M
配置项:
- 配置名称:默认配置(default),数据文件:
- 划分:训练集(train),文件路径:data/train-*
标签分类:
- 兽人 (Furry)
- 拟人化 (Anthro)
- 非适合工作场所内容 (Not Safe For Work,简称NSFW)
- E621
- 图库站点 (Booru)
- 图像图库站点 (Imagebooru)
- 图像论坛图库 (Imageboard)
- Gelbooru
- Danbooru
- Rule34
- 非全年龄段适用
<div style='background: #ffeef1; border: 1px solid #fd91a4; padding:1em; border-radius:3px; margin-bottom:2em;'>
<h3 style='margin:0'>NSFW(非适合工作场所内容)</h3>
<p style='margin:0'>本数据集不适合未成年人使用,包含成人色情及NSFW级内容。</p>
</div>
# E621 Rising V3:精选图像数据集 (E621 Rising V3: Curated Image Dataset)
* **279296**张图像,总大小53GB,数据采集自e621.net(占总样本的90%)、gelbooru.com、danbooru.com以及rule34.xxx
* 包含**6820**个[标签 (Tags)](https://huggingface.co/datasets/hearmeneigh/e621-rising-v3-preliminary-data/blob/main/tag-counts.by-name.json)
* 可用于训练[E621 Rising v3](https://huggingface.co/hearmeneigh/e621-rising-v3) SDXL (Stable Diffusion XL) 模型
本数据集基于[Dataset Rising](https://github.com/hearmeneigh/dataset-rising)工具链与自定义配置构建,您可使用该工具链训练专属的数据集版本!
## 图像处理流程
* 仅考虑`jpg`与`png`格式的图像
* 图像的宽高被限制在`(0, 1024]像素`范围内,超出尺寸的图像将被调整至符合该限制
* 移除图像的Alpha通道
* 所有图像均被转换为`jpg`格式
* 所有图像均被转换为真彩色`RGB`模式
* 所有图像均通过`Pillow (Python图像处理库)`验证可正常加载
* E621的元数据可[在此处获取](https://huggingface.co/datasets/hearmeneigh/e621-rising-v3-preliminary-data)
## 标签体系
包含6820个标签及其出现频次的完整列表:
* [按名称排序](https://huggingface.co/datasets/hearmeneigh/e621-rising-v3-preliminary-data/blob/main/tag-counts.by-name.json)
* [按频次排序](https://huggingface.co/datasets/hearmeneigh/e621-rising-v3-preliminary-data/blob/main/tag-counts.by-count.json)
### 附加标签
* `rating_explicit(显式内容评级)`
* `rating_questionable(可疑内容评级)`
* `rating_safe(安全内容评级)`
* `rising_masterpiece`
* `rising_unpopular`
* `favorites_below_X`(收藏量低于X,X取值为25、50、100、250、500、1000)
* `favorites_above_X`(收藏量高于X,X取值为250、500、1000、2000、3000、4000)
* `score_below_X`(点赞量低于X,X取值为0、25、50、100、250、500)
* `score_above_X`(点赞量高于X,X取值为100、250、500、1000、1500、2000)
提供机构:
hearmeneigh
原始信息汇总
E621 Rising V3 图像数据集
数据集概述
- 名称: E621 Rising V3 图像数据集
- 大小: 279,296 张图像(53GB)
- 来源: 主要来自
e621.net(90% 样本),以及gelbooru.com、danbooru.com和rule34.xxx - 标签数量: 6,820 个
- 用途: 用于训练 E621 Rising v3 SDXL 模型
数据集特征
- 特征列表:
source_id: 字符串source: 字符串image: 图像tags: 字符串序列url: 字符串text: 字符串selector: 字符串
- 数据分割:
train: 53726659168.0 字节,279296 个样本
- 下载大小: 53423627875 字节
- 数据集大小: 53726659168.0 字节
图像处理
- 格式: 仅包含
jpg和png图像 - 尺寸限制: 图像宽度和高度限制在
(0, 1024]px,大于此尺寸的图像被调整 - 通道处理: 移除 Alpha 通道
- 格式转换: 所有图像转换为
jpg格式和 TrueColorRGB - 验证: 所有图像验证可使用
Pillow加载
标签
- 标签列表: 包含 6,820 个标签及其计数
- 额外标签:
rating_explicitrating_questionablerating_saferising_masterpiecerising_unpopularfavorites_below_X(25, 50, 100, 250, 500, 1000)favorites_above_X(250, 500, 1000, 2000, 3000, 4000)score_below_X(0, 25, 50, 100, 250, 500)score_above_X(100, 250, 500, 1000, 1500, 2000)
注意事项
- 适用性: 该数据集不适合未成年人使用,包含限制级内容。
搜集汇总
数据集介绍

构建方式
在数字艺术与亚文化图像生成领域,E621 Rising V3 数据集的构建体现了系统化采集与精细处理的高度整合。该数据集通过 Dataset Rising 工具链及定制化配置,从 e621.net、gelbooru.com、danbooru.com 与 rule34.xxx 等知名图像社区汇集了 279,296 幅图像,其中约九成样本源自 e621.net。构建过程中,仅采纳 JPG 与 PNG 格式的原始图像,并对尺寸超出 1024 像素的样本进行智能缩放,同时移除了 Alpha 通道,统一转换为 TrueColor RGB 模式的 JPG 格式,确保所有图像均能通过 Pillow 库顺利加载,从而保障了数据的一致性与可用性。
使用方法
该数据集主要应用于训练生成式视觉模型,特别是为 E621 Rising v3 SDXL 模型的开发提供支持。使用者可通过 Hugging Face 平台直接加载数据集,利用其图像与标签对进行监督学习或条件生成任务的训练。在实际应用中,建议结合提供的标签元数据文件,依据内容评级、收藏量或评分阈值进行样本筛选,以构建符合特定研究需求的子集。鉴于数据集的特殊性质,使用者须严格遵守伦理规范,确保在适当的访问控制与使用环境下开展实验,避免不当传播或滥用。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的时代,专门领域的图像数据集对于推动风格化内容创作至关重要。E621 Rising V3: Curated Image Dataset由hearmeneigh团队于近期构建,其核心研究聚焦于兽迷(Furry)与拟人化(Anthro)艺术风格的图像生成。该数据集从e621.net、gelbooru.com等知名图像社区采集了超过27万张图像,并附有6820个精细标签,旨在为稳定扩散等生成模型提供高质量、多标签的训练资源,以解决特定亚文化艺术风格在AI生成领域数据稀缺与表征不足的问题,对推动个性化、小众化视觉内容的自动化创作具有显著影响力。
当前挑战
该数据集致力于解决兽迷与拟人化艺术风格图像生成的领域挑战,其核心在于如何从海量、异构的网络社区数据中,构建一个标签体系完备、图像质量统一且符合伦理规范的训练集。在构建过程中,面临多重具体挑战:首先,原始数据包含大量不适合未成年人的成人内容(NSFW),需要进行严格的伦理筛选与内容分级;其次,图像来源多样,格式、尺寸与色彩模式不一,需通过复杂的预处理流程(如尺寸裁剪、格式转换、Alpha通道移除)实现标准化;此外,从非结构化社区数据中提取并整合多达数千个语义标签,并确保其一致性与可用性,亦是巨大的工程与语义组织挑战。
常用场景
经典使用场景
在数字艺术与生成式人工智能的交叉领域,E621 Rising V3数据集为训练高度专业化的文本到图像生成模型提供了关键资源。该数据集以其丰富的兽人主题图像和精细的标签系统,成为开发面向特定亚文化社群的生成模型的核心训练素材。研究者通过该数据集能够训练出能够准确理解并生成兽人艺术风格的扩散模型,从而在创意内容生成领域实现高度风格化的视觉输出。
解决学术问题
该数据集有效解决了生成式人工智能在特定艺术风格建模中的训练数据稀缺性问题。通过提供大规模、高质量且带有结构化标签的兽人主题图像,它支持了细粒度条件生成、多标签图像理解以及跨模态表示学习等前沿研究。其丰富的标注信息为探索标签语义与视觉特征之间的复杂映射关系提供了实验基础,推动了可控图像生成技术的理论发展。
实际应用
在实际应用中,基于该数据集训练的模型被广泛用于满足兽人艺术爱好者社群的创意需求。这些模型能够辅助数字艺术家进行概念设计、快速生成角色草图,并为游戏、动漫等娱乐产业提供风格化的视觉素材。此外,其技术框架也为构建其他垂直领域的专业图像生成工具提供了可复用的工程范式。
数据集最近研究
最新研究方向
在数字艺术与生成式人工智能领域,E621 Rising V3数据集作为兽迷(Furry)与拟人化艺术风格的重要资源,正推动着图像生成模型的前沿探索。该数据集整合了来自多个图像看板(imageboard)的丰富视觉内容,其精细的标签体系与大规模图像样本为风格化生成模型的训练提供了坚实基础。当前研究聚焦于利用此类数据集优化稳定扩散模型(如SDXL)的生成能力,特别是在特定亚文化视觉风格的精准控制与多样性表达上。随着生成式AI在创意产业的应用深化,这类高度垂直的数据集不仅促进了艺术创作工具的个性化发展,也为理解模型在复杂标签体系下的语义学习机制提供了关键案例。其影响延伸至跨模态内容生成的研究,推动了人工智能在细分艺术领域的适应性与创造性边界。
以上内容由遇见数据集搜集并总结生成



