ppbrown/danbooru-cleaned
收藏Hugging Face2024-07-17 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ppbrown/danbooru-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个协作项目,旨在清理Danbooru数据集中的混乱内容。Danbooru数据集包含大量(主要是免费的)动漫风格图像,这些图像已经单独标记。然而,这些图像被不加选择地包含在内,其中一些图像可能涉及版权问题、带有水印、包含法律上可疑的内容或质量不佳。该项目的目标是从中筛选出干净、适合AI训练的图像。清理过程包括从已调整大小的图像中删除不符合标准的图像,但不包括去除签名或水印。该项目是一个有组织的、众包的志愿者努力,涉及数百个数据块,每个数据块可能包含4000-5000张图像。
This dataset is a collaborative project aimed at cleaning up problematic content within the Danbooru dataset. The Danbooru dataset contains a large volume of (mostly free) anime-style images, all of which have been individually tagged. However, these images were included indiscriminately, and some may involve copyright issues, carry watermarks, contain legally questionable content, or be of poor quality. The goal of this project is to filter out clean images suitable for AI training from this dataset. The cleaning process involves removing non-compliant images from the resized image set, but does not include the removal of signatures or watermarks. This project is an organized, crowdsourced volunteer effort involving hundreds of data chunks, each potentially containing 4,000 to 5,000 images.
提供机构:
ppbrown
原始信息汇总
数据集概述
数据集名称
Danbooru 数据集清理项目
数据集目的
该项目旨在清理Danbooru数据集中的不合适内容,提取出适合AI训练的干净图像。
数据集内容
- 包含大量已单独标记的动漫风格图像。
- 数据集中的图像已进行适当调整大小。
- 每个数据块包含约4000-5000张图像。
数据集处理方式
- 不修改图像中的签名或水印,而是直接从数据集中排除。
- 通过社区志愿者的协作,逐个压缩文件删除不符合标准的图像。
数据集使用建议
- 建议用户使用图像目录浏览器选择特定主题或风格的图像进行AI训练。
- 用户可添加自定义标签以增强数据集的适用性。
当前数据段分配情况
- 0000-0010: ppbrown (data-0001 - data-0003 已完成)
- 0010: 已完成
- 0040: 已完成
许可证
openrail
标签
- not-for-all-audiences



