five

KBlueLeaf/danbooru2023-webp-4Mpixel

收藏
Hugging Face2024-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KBlueLeaf/danbooru2023-webp-4Mpixel
下载链接
链接失效反馈
官方服务:
资源简介:
Danbooru 2023 webp数据集是Danbooru 2023的一个重新编码和调整大小的版本,旨在提高空间效率。该数据集移除了非图像/截断文件,并将所有图像调整为较小尺寸。所有图像都使用WebP格式以90%的质量保存,这大大减少了文件大小。数据集的总大小约为1.3到1.4TB,是原始文件大小的不到20%。数据集还使用了webdataset库来保存tar文件,便于加载。

The Danbooru 2023 webp dataset is a resized/re-encoded version of Danbooru 2023, designed to improve space efficiency. This dataset removes non-image/truncated files and resizes all images to smaller dimensions. All images are saved in WebP format at 90% quality, significantly reducing file size. The total size of the dataset is approximately 1.3 to 1.4TB, which is less than 20% of the original file size. The dataset also uses the webdataset library to save tar files, making them easy to load.
提供机构:
KBlueLeaf
原始信息汇总

Danbooru 2023 webp: A space-efficient version of Danbooru 2023

数据集概述

该数据集是danbooru2023的重新调整大小和重新编码版本,移除了非图像/截断文件,并将所有图像调整为更小的尺寸。

详细信息

该数据集采用了几种方法来减小尺寸并提高效率。

尺寸和格式

  • 所有大于2048x2048像素的图像被调整为接近2048x2048像素,使用双三次插值算法。
  • 调整大小后,移除所有长边大于16383的图像(因为webp格式不允许,且长宽比过大/过小)。
  • 所有图像以90%质量的webp格式保存,使用Python的Pillow库,其大小是100%质量有损webp的一半。
  • 数据集总大小约为1.3~1.4TB,不到原始文件大小的20%。

Webdataset

  • 该数据集使用webdataset库保存所有tar文件,推荐使用webdataset加载。
  • 每个文件的__key__是其ID,可用于查询元数据数据库

未来工作

计划在GitHub上开源一个仓库,用于利用danbooru-webp和danbooru-sqlite数据集作为细粒度图像任务的数据集导出器。由于原始的danbooru2023实际上没有发布2023年11月20日之后的图像,该数据集将在原始数据集更新后进行更新,并保持相同格式。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作