five

qwopqwop/danbooru2022_tags

收藏
Hugging Face2023-06-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qwopqwop/danbooru2022_tags
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含danbooru 2021和danbooru 2022的标签信息,通过帖子ID进行去重处理。如果不存在帖子ID,则按顺序设置为负值。数据集加载和预处理的代码示例包括加载数据、处理标签、去除不良标签等步骤,并最终将处理后的数据保存为parquet格式。

该数据集包含danbooru 2021和danbooru 2022的标签信息,通过帖子ID进行去重处理。如果不存在帖子ID,则按顺序设置为负值。数据集加载和预处理的代码示例包括加载数据、处理标签、去除不良标签等步骤,并最终将处理后的数据保存为parquet格式。
提供机构:
qwopqwop
原始信息汇总

数据集概述

数据集名称

  • danbooru2021danbooru2022

数据集内容

  • 包含图像的标签信息。

数据集处理

  • 数据集通过帖子ID进行去重,若无帖子ID,则顺序设置为负值。
  • 预处理包括去除特定不良标签,如“absurdres”, “highres”等。

数据集加载

python from datasets import load_dataset dataset = load_dataset(qwopqwop/danbooru2022_tags)

数据集预处理代码

  • 使用Python脚本进行数据加载和预处理,包括读取JSON文件和文本文件,处理标签,并去除不良标签。
  • 最终数据保存为Parquet格式文件。

许可证

  • MIT许可证
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是Danbooru 2021和2022数据集的标签集合,以Parquet格式存储,包含约595万行数据。数据集经过预处理,去除了重复ID和不良标签,适用于标签分析和图像分类任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作