qwopqwop/danbooru2022_tags
收藏Hugging Face2023-06-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qwopqwop/danbooru2022_tags
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含danbooru 2021和danbooru 2022的标签信息,通过帖子ID进行去重处理。如果不存在帖子ID,则按顺序设置为负值。数据集加载和预处理的代码示例包括加载数据、处理标签、去除不良标签等步骤,并最终将处理后的数据保存为parquet格式。
该数据集包含danbooru 2021和danbooru 2022的标签信息,通过帖子ID进行去重处理。如果不存在帖子ID,则按顺序设置为负值。数据集加载和预处理的代码示例包括加载数据、处理标签、去除不良标签等步骤,并最终将处理后的数据保存为parquet格式。
提供机构:
qwopqwop
原始信息汇总
数据集概述
数据集名称
- danbooru2021 和 danbooru2022
数据集内容
- 包含图像的标签信息。
数据集处理
- 数据集通过帖子ID进行去重,若无帖子ID,则顺序设置为负值。
- 预处理包括去除特定不良标签,如“absurdres”, “highres”等。
数据集加载
python from datasets import load_dataset dataset = load_dataset(qwopqwop/danbooru2022_tags)
数据集预处理代码
- 使用Python脚本进行数据加载和预处理,包括读取JSON文件和文本文件,处理标签,并去除不良标签。
- 最终数据保存为Parquet格式文件。
许可证
- MIT许可证
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是Danbooru 2021和2022数据集的标签集合,以Parquet格式存储,包含约595万行数据。数据集经过预处理,去除了重复ID和不良标签,适用于标签分析和图像分类任务。
以上内容由遇见数据集搜集并总结生成



