lint/danbooru_tags
收藏Hugging Face2023-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lint/danbooru_tags
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Danbooru图像帖子的标签字符串,最初用于生成合成数据集以调整稳定扩散模型。数据集以parquet格式存储,包含标签字符串和帖子ID字段。数据经过筛选,仅包含提交分数大于2且相对安全的内容。数据集还可用于训练语言模型,生成动漫风格稳定扩散检查点的提示。
该数据集包含Danbooru图像帖子的标签字符串,最初用于生成合成数据集以调整稳定扩散模型。数据集以parquet格式存储,包含标签字符串和帖子ID字段。数据经过筛选,仅包含提交分数大于2且相对安全的内容。数据集还可用于训练语言模型,生成动漫风格稳定扩散检查点的提示。
提供机构:
lint
原始信息汇总
数据集概述
数据集内容
- 数据集名称:Danbooru 标签数据集
- 数据集用途:用于生成动漫风格图像的标签字符串,也可用于训练语言模型以生成动漫风格稳定扩散检查点的提示。
数据集结构
- 数据格式:Pandas DataFrame,存储为Parquet格式。
- 文件命名规则:文件名包含年份、部分编号及是否经过修剪。
- 数据字段:
- 完整数据:包含所有由Gwern收集的元数据字段。
- 修剪数据:仅包含标签字符串和帖子ID字段(
tags,id),筛选条件为提交分数大于2且评级为相对安全内容(SFW)。
数据集加载
- 加载示例: python from datasets import load_dataset data_files = {"train": "2021_0_pruned.parquet"} dataset = load_dataset("lint/danbooru_tags", data_files=data_files) print(dataset[train][0])
数据集来源与提取
- 数据来源:从Danbooru图像帖子中提取标签字符串。
- 提取方法:使用
generate_tags_dataset.ipynb笔记本从Gwern收集的Danbooru元数据中提取标签数据。
附加信息
- 数据集扩展:可提供其他年份的类似提取标签,具体请求可在社区标签中提出。
- 数据集处理:用户可以使用提供的笔记本提取标签和/或过滤数据集。



