KBlueLeaf/danbooru2023-webp-4Mpixel
收藏Hugging Face2024-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KBlueLeaf/danbooru2023-webp-4Mpixel
下载链接
链接失效反馈官方服务:
资源简介:
Danbooru 2023 webp数据集是Danbooru 2023的一个重新编码和调整大小的版本,旨在提高空间效率。该数据集移除了非图像/截断文件,并将所有图像调整为较小尺寸。所有图像都使用WebP格式以90%的质量保存,这大大减少了文件大小。数据集的总大小约为1.3到1.4TB,是原始文件大小的不到20%。数据集还使用了webdataset库来保存tar文件,便于加载。
The Danbooru 2023 webp dataset is a resized/re-encoded version of Danbooru 2023, designed to improve space efficiency. This dataset removes non-image/truncated files and resizes all images to smaller dimensions. All images are saved in WebP format at 90% quality, significantly reducing file size. The total size of the dataset is approximately 1.3 to 1.4TB, which is less than 20% of the original file size. The dataset also uses the webdataset library to save tar files, making them easy to load.
提供机构:
KBlueLeaf
原始信息汇总
Danbooru 2023 webp: A space-efficient version of Danbooru 2023
数据集概述
该数据集是danbooru2023的重新调整大小和重新编码版本,移除了非图像/截断文件,并将所有图像调整为更小的尺寸。
详细信息
该数据集采用了几种方法来减小尺寸并提高效率。
尺寸和格式
- 所有大于2048x2048像素的图像被调整为接近2048x2048像素,使用双三次插值算法。
- 调整大小后,移除所有长边大于16383的图像(因为webp格式不允许,且长宽比过大/过小)。
- 所有图像以90%质量的webp格式保存,使用Python的Pillow库,其大小是100%质量有损webp的一半。
- 数据集总大小约为1.3~1.4TB,不到原始文件大小的20%。
Webdataset
- 该数据集使用webdataset库保存所有tar文件,推荐使用webdataset加载。
- 每个文件的
__key__是其ID,可用于查询元数据数据库。
未来工作
计划在GitHub上开源一个仓库,用于利用danbooru-webp和danbooru-sqlite数据集作为细粒度图像任务的数据集导出器。由于原始的danbooru2023实际上没有发布2023年11月20日之后的图像,该数据集将在原始数据集更新后进行更新,并保持相同格式。



