five

lint/danbooru_tags

收藏
Hugging Face2023-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lint/danbooru_tags
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含Danbooru图像帖子的标签字符串,最初用于生成合成数据集以调整稳定扩散模型。数据集以parquet格式存储,包含标签字符串和帖子ID字段。数据经过筛选,仅包含提交分数大于2且相对安全的内容。数据集还可用于训练语言模型,生成动漫风格稳定扩散检查点的提示。

该数据集包含Danbooru图像帖子的标签字符串,最初用于生成合成数据集以调整稳定扩散模型。数据集以parquet格式存储,包含标签字符串和帖子ID字段。数据经过筛选,仅包含提交分数大于2且相对安全的内容。数据集还可用于训练语言模型,生成动漫风格稳定扩散检查点的提示。
提供机构:
lint
原始信息汇总

数据集概述

数据集内容

  • 数据集名称:Danbooru 标签数据集
  • 数据集用途:用于生成动漫风格图像的标签字符串,也可用于训练语言模型以生成动漫风格稳定扩散检查点的提示。

数据集结构

  • 数据格式:Pandas DataFrame,存储为Parquet格式。
  • 文件命名规则:文件名包含年份、部分编号及是否经过修剪。
  • 数据字段
    • 完整数据:包含所有由Gwern收集的元数据字段。
    • 修剪数据:仅包含标签字符串和帖子ID字段(tags, id),筛选条件为提交分数大于2且评级为相对安全内容(SFW)。

数据集加载

  • 加载示例: python from datasets import load_dataset data_files = {"train": "2021_0_pruned.parquet"} dataset = load_dataset("lint/danbooru_tags", data_files=data_files) print(dataset[train][0])

数据集来源与提取

  • 数据来源:从Danbooru图像帖子中提取标签字符串。
  • 提取方法:使用generate_tags_dataset.ipynb笔记本从Gwern收集的Danbooru元数据中提取标签数据。

附加信息

  • 数据集扩展:可提供其他年份的类似提取标签,具体请求可在社区标签中提出。
  • 数据集处理:用户可以使用提供的笔记本提取标签和/或过滤数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作