jpft/danbooru2023
收藏Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jpft/danbooru2023
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- image-classification
- image-to-image
- text-to-image
language:
- en
- ja
pretty_name: danbooru2023
size_categories:
- 1M<n<10M
viewer: false
---
<img src="https://huggingface.co/datasets/nyanko7/danbooru2023/resolve/main/cover.webp" alt="cover" width="750"/>
# Danbooru2023: A Large-Scale Crowdsourced and Tagged Anime Illustration Dataset
<!-- Provide a quick summary of the dataset. -->
Danbooru2023 is a large-scale anime image dataset with over 5 million images contributed and annotated in detail by an enthusiast community. Image tags cover aspects like characters, scenes, copyrights, artists, etc with an average of 30 tags per image.
Danbooru is a veteran anime image board with high-quality images and extensive tag metadata. The dataset can be used to train image classification, multi-label tagging, character detection, generative models, and other computer vision tasks.
- **Shared by:** Nyanko Devs
- **Language(s):** English, Japanese
- **License:** MIT
This dataset is built on the top of [danbooru2021](https://gwern.net/danbooru2021). We expands the dataset to include images up to ID #6,857,737, adding over 1.8 million additional images and total size is now approximately 8 terabytes (8,000 GB).
## Use
## Format
The goal of the dataset is to be as easy as possible to use immediately, avoiding obscure file formats, while allowing simultaneous research & seeding of the torrent, with easy updates.
Images are provided in the full original form (be that JPG, PNG, GIF or otherwise) for reference/archival purposes, and bucketed into 1000 subdirectories 0000–0999 (0-padded), which is the Danbooru ID modulo 1000 (ie. all images in 0999/ have an ID ending in ‘999’); IDs can be turned into paths by dividing & padding (eg. in Bash, BUCKET=$(printf "%04d" $(( ID % 1000 )) )) and then the file is at {original,512px}/$BUCKET/$ID.$EXT.
The reason for the bucketing is that a single directory would cause pathological filesystem performance, and modulo ID is a simple hash which spreads images evenly without requiring additional future directories to be made or a filesystem IO to check where the file is. The ID is not zero-padded and files end in the relevant extension, hence the file layout looks like this:
```bash
$ tree / | less
/
├── danbooru2023 -> /mnt/diffusionstorage/workspace/danbooru/
│ ├── metadata
│ ├── readme.md
│ ├── original
│ │ ├── 0000 -> data-0000.tar
│ │ ├── 0001 -> data-0001.tar
│ │ │ ├── 10001.jpg
│ │ │ ├── 210001.png
│ │ │ ├── 3120001.webp
│ │ │ ├── 6513001.jpg
```
Currently represented file extensions are: avi/bmp/gif/html/jpeg/jpg/mp3/mp4/mpg/pdf/png/rar/swf/webm/wmv/zip.
Raw original files are treacherous. Be careful if working with the original dataset. There are many odd files: truncated, non-sRGB colorspace, wrong file extensions (eg. some PNGs have .jpg extensions like original/0146/1525146.jpg or original/0558/1422558.jpg), etc.
许可证:MIT许可证
任务类别:
- 图像分类
- 图像到图像
- 文本到图像
语言:
- 英语
- 日语
展示名称:danbooru2023
规模类别:100万 < 样本数 < 1000万
查看器:禁用
<img src="https://huggingface.co/datasets/nyanko7/danbooru2023/resolve/main/cover.webp" alt="cover" width="750"/>
# Danbooru2023:大规模众包标注动漫插画数据集
<!-- Provide a quick summary of the dataset. -->
Danbooru2023是一款超大规模动漫图像数据集,由爱好者社区贡献并完成详细标注的图像数量超过500万张。图像标签涵盖角色、场景、版权归属、创作者等多个维度,单张图像平均标注标签数达30个。
Danbooru是一家历史悠久的动漫图像看板站,拥有高质量图像与丰富的标签元数据。本数据集可用于训练图像分类、多标签标注、角色检测、生成式模型及其他计算机视觉(Computer Vision)任务。
- **共享方:** Nyanko开发团队
- **语言:** 英语、日语
- **许可证:** MIT许可证
本数据集基于[danbooru2021](https://gwern.net/danbooru2021)构建,我们将数据集扩展至ID编号为#6,857,737的图像,新增超过180万张图像,总容量现已达到约8太字节(8000GB)。
## 使用说明
本数据集的设计目标是尽可能便于直接使用,避免采用晦涩难懂的文件格式,同时支持同步开展研究与BT种子做种,并支持便捷的更新。
## 数据组织格式
图像以完整原始格式(包括JPG、PNG、GIF等)提供,用于参考与归档,并被划分为1000个子目录(0000–0999,采用前导零补全格式),目录编号由Danbooru图像ID对1000取模得到(即0999/目录下的所有图像ID均以‘999’结尾);可通过取模并补全前导零的方式将ID转换为文件路径(例如在Bash环境中,执行`BUCKET=$(printf "%04d" $(( ID % 1000 )))`),随后文件路径为`{original,512px}/$BUCKET/$ID.$EXT`。
采用这种分桶存储方式的原因是,单个目录会导致文件系统性能出现异常恶化,而对图像ID取模是一种简单的哈希方法,可将图像均匀分布在各目录中,无需后续新增目录或通过文件系统IO查询文件位置。图像ID无需补全前导零,文件以对应扩展名结尾,因此文件布局示例如下:
bash
$ tree / | less
/
├── danbooru2023 -> /mnt/diffusionstorage/workspace/danbooru/
│ ├── metadata
│ ├── readme.md
│ ├── original
│ │ ├── 0000 -> data-0000.tar
│ │ ├── 0001 -> data-0001.tar
│ │ │ ├── 10001.jpg
│ │ │ ├── 210001.png
│ │ │ ├── 3120001.webp
│ │ │ ├── 6513001.jpg
当前支持的文件扩展名包括:avi、bmp、gif、html、jpeg、jpg、mp3、mp4、mpg、pdf、png、rar、swf、webm、wmv、zip。
原始未处理的文件存在诸多风险。处理原始数据集时需格外谨慎,存在大量异常文件:包括截断文件、非sRGB色彩空间文件、错误的文件扩展名(例如部分PNG文件被错误命名为.jpg扩展名,如`original/0146/1525146.jpg`或`original/0558/1422558.jpg`)等。
提供机构:
jpft
原始信息汇总
Danbooru2023 数据集概述
基本信息
- 名称: Danbooru2023
- 类型: 动漫图像数据集
- 图像数量: 超过500万张
- 标签数量: 平均每张图像30个标签
- 语言: 英语、日语
- 许可证: MIT
- 共享者: Nyanko Devs
数据集描述
Danbooru2023是一个大规模的动漫图像数据集,由爱好者社区贡献并详细标注。图像标签涵盖角色、场景、版权、艺术家等方面。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等计算机视觉任务。
数据集扩展
该数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,新增超过180万张图像,总大小约为8TB(8000GB)。
数据格式
图像以原始格式(JPG、PNG、GIF等)提供,便于参考和存档。图像被分桶到1000个子目录(0000-0999),这是Danbooru ID对1000取模的结果。文件布局如下:
bash / ├── danbooru2023 -> /mnt/diffusionstorage/workspace/danbooru/ │ ├── metadata │ ├── readme.md │ ├── original │ │ ├── 0000 -> data-0000.tar │ │ ├── 0001 -> data-0001.tar │ │ │ ├── 10001.jpg │ │ │ ├── 210001.png │ │ │ ├── 3120001.webp │ │ │ ├── 6513001.jpg
当前支持的文件扩展名包括:avi/bmp/gif/html/jpeg/jpg/mp3/mp4/mpg/pdf/png/rar/swf/webm/wmv/zip。
原始文件可能存在一些问题,如截断、非sRGB色彩空间、错误的文件扩展名等。在使用原始数据集时需谨慎。
搜集汇总
数据集介绍

构建方式
Danbooru2023数据集是在danbooru2021的基础上构建的,通过社区爱好者的共同努力,对超过500万张动漫图像进行了详细标注。该数据集的构建不仅涵盖了动漫角色、场景、版权、艺术家等多个维度的标签,而且每张图像平均拥有30个标签,从而为图像分类、多标签标注、角色检测、生成模型等计算机视觉任务提供了丰富的训练资源。
特点
该数据集的特点在于其规模宏大,多样性丰富,包含了高达ID #6,857,737的图像,新增了超过180万张图像,总数据量达到了约8太字节。其标签系统的详尽程度使得数据集在动漫领域具有较高的参考价值。此外,数据集遵循MIT许可,保证了使用的灵活性。
使用方法
在使用Danbooru2023数据集时,用户可以方便地获取原始图像,这些图像以JPG、PNG、GIF等格式存储,并分布在1000个子目录中。每个子目录的命名是根据图像ID除以1000得到的余数进行命名的。这种目录结构的设计旨在避免单个目录的性能问题,并确保图像的均匀分布。用户可以通过简单的路径转换操作,快速定位到所需的图像文件。
背景与挑战
背景概述
Danbooru2023是一个由动漫爱好者社区贡献和详细标注的大型动漫图像数据集,拥有超过500万张图像。该数据集的图像标签涵盖了角色、场景、版权、艺术家等多个方面,平均每张图像有30个标签。Danbooru作为一个资深的动漫图片版,以其高质量的图像和详尽的标签元数据而闻名。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等计算机视觉任务。Danbooru2023是在danbooru2021的基础上构建的,扩展了数据集范围,新增了超过180万张图像,总数据量达到了约8太字节。该数据集由Nyanko Devs共享,支持英语和日语两种语言,并遵循MIT许可。
当前挑战
Danbooru2023在构建过程中面临了多个挑战。首先,数据集的规模庞大,导致文件系统性能问题。为了解决这一问题,图像被分散存储在1000个子目录中,以均匀分配文件并优化读取效率。其次,原始文件格式多样,存在一些非标准文件,如截断文件、非sRGB色彩空间的文件以及文件扩展名不正确的情况,这为数据集的处理和使用增加了难度。此外,数据集的多标签特性和高质量的图像要求,也为相关任务的算法研究和模型训练带来了挑战。
常用场景
经典使用场景
在深入探索计算机视觉领域的过程中,Danbooru2023数据集以其丰富的图像资源和详尽的标签信息,成为研究者的优选工具。该数据集广泛应用于图像分类、多标签标注、角色检测以及生成模型等任务中,其经典的使用场景包括利用其海量的图像数据对深度学习模型进行训练,以及通过其标签系统进行图像内容的精细化管理。
实际应用
在实际应用方面,Danbooru2023数据集的图像和标签被广泛用于动漫内容的推荐系统、版权管理、以及内容审核等领域。其丰富的标签信息使得自动化处理和智能分析成为可能,极大地提升了相关行业的工作效率。
衍生相关工作
基于Danbooru2023数据集,学术界和工业界衍生出了众多经典工作。研究者们不仅在此基础上训练出了高性能的图像识别模型,还探索了图像生成、风格迁移等前沿领域,推动了计算机视觉和相关应用技术的发展。
以上内容由遇见数据集搜集并总结生成



