Crosstyan/danbooru-public

Name: Crosstyan/danbooru-public
Creator: Crosstyan
Published: 2024-01-21 14:56:29
License: 暂无描述

Hugging Face2024-01-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Crosstyan/danbooru-public

下载链接

链接失效反馈

官方服务：

资源简介：

Danbooru Public数据集包含了与posts、tags和artists相关的元数据。这些数据可以从Google Cloud Storage下载，并且是以JSON Lines格式编码的。数据集最后更新于2023年11月30日。

提供机构：

Crosstyan

原始信息汇总

Danbooru Public

数据集内容

包含 "posts"、"tags" 和 "artists" 的元数据。

数据格式

数据以 JSON Lines 格式编码。

下载方式

数据集可从 danbooru public google cloud storage 下载。

更新日期

最后更新日期为2023年11月30日。

解压方法

bash tar -xJf tags.tar.xz tar -xJf artists.tar.xz

posts.tar.br 使用 brotli 压缩

--use-compress-program 可能也适用

请注意，输出文件大小约为20GB

brotli --decompress --stdout posts.tar.br | tar -xf

搜集汇总

数据集介绍

构建方式

Crosstyan/danbooru-public数据集的构建，是通过对Danbooru数据库的公开元数据进行整合而形成的。该数据库涵盖了帖子(posts)、标签(tags)以及艺术家(artists)的相关信息，采用JSON Lines格式编码，确保了数据的结构化与易读性。数据集通过从Google Cloud Storage中下载压缩文件，并解压至相应格式来完成构建过程。

特点

该数据集显著的特点在于其内容的丰富性与多样性，包含了大量的图像元数据，以及与之相关的标签和艺术家信息，为研究者提供了深入分析图像内容的宝贵资源。数据更新及时，保持了数据的时效性与准确性。此外，采用JSON Lines格式，便于数据的处理与交换。

使用方法

使用Crosstyan/danbooru-public数据集，用户需先从指定的Google Cloud Storage下载压缩文件，通过解压命令将数据解压至可用的格式。需要注意的是，帖子数据采用了brotli压缩算法，解压时需使用相应的命令进行 decompress 操作。解压后的数据可被直接用于图像内容分析、标签分类、艺术家识别等多种研究场景。

背景与挑战

背景概述

Danbooru Public数据集，作为danbooru数据库的一个公开版本，包含了关于帖子、标签和艺术家的丰富元数据。该数据集的创建，旨在为计算机视觉、图像识别以及机器学习等领域的研究人员提供一个大规模的图像数据资源。自danbooru项目启动以来，其凭借庞大的图像库和详尽的标签信息，已成为研究动漫和插画内容识别的重要数据集。该数据集的更新维护至2023年11月30日，由crosstyan等研究人员和机构负责，对于理解图像内容、风格分类以及艺术家识别等领域产生了深远的影响。

当前挑战

Danbooru Public数据集在构建过程中面临了诸多挑战，首要的是数据量巨大导致的存储和压缩问题，如posts数据压缩后的大小接近20GB。其次，数据集的多样性带来了数据标注和分类的复杂性，特别是标签系统的庞大和复杂，使得自动标注和标签质量控制的难度增加。此外，数据集在使用中还涉及到版权和隐私保护的问题，需要确保在遵守相关法律法规的前提下进行合理使用。

常用场景

经典使用场景

在深入理解视觉艺术与人工智能交互的领域内，Crosstyan/danbooru-public数据集的经典使用场景主要集中于提供详尽的图像标签和艺术家信息，以辅助机器学习模型进行图像识别、分类与检索任务。该数据集的元数据涵盖了帖子、标签和艺术家的详细信息，为研究者提供了一个丰富的资源库，以便训练和测试算法在理解复杂图像内容方面的性能。

实际应用

在现实应用中，Crosstyan/danbooru-public数据集可以被用于构建智能图像管理系统，为艺术作品数据库提供高效的搜索功能，或者在在线艺术社区中实现基于内容的推荐系统。此外，它还可以为艺术市场分析提供数据支持，帮助理解艺术作品的流行趋势和艺术家的影响力。

衍生相关工作

基于Crosstyan/danbooru-public数据集，衍生出了一系列相关的研究工作，如艺术家风格识别、图像情感分析以及艺术作品分类等。这些研究不仅推动了视觉艺术领域的人工智能应用，也为艺术史研究和艺术市场分析提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集