danbooru2023-florence2-caption

Hugging Face2024-07-08 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/KBlueLeaf/danbooru2023-florence2-caption

下载链接

链接失效反馈

官方服务：

资源简介：

Danbooru2023 - Florence2 Caption dataset是一个包含由microsoft/Florence-2-large生成的danbooru2023图像描述的数据集。该数据集格式为parquet，包含图像的danbooru ID和解析后的Florence 2输出。数据集共有7,438,449条记录，输出令牌的统计信息包括不同令牌器的最小、最大、平均和中位数。输出格式主要分为三种类型，分别是描述图像内容的句子、描述图像与某物关系的句子和其他类型。数据集的生成时间成本约为7到10天，使用4块3090显卡。数据集及其源代码的许可证为Apache-License 2.0。

Danbooru2023 - Florence2 Caption dataset is a dataset comprising image captions generated by microsoft/Florence-2-large for the Danbooru2023 image corpus. Stored in Parquet format, this dataset includes the Danbooru ID of each image as well as the parsed outputs from Florence 2. It contains a total of 7,438,449 records, with statistics for the output tokens covering the minimum, maximum, average, and median values across different tokenizers. The output formats are primarily categorized into three types: sentences describing image content, sentences describing the relationship between the image and a specific entity, and other miscellaneous types. The time required to generate this dataset is approximately 7 to 10 days, utilizing 4 NVIDIA RTX 3090 graphics cards. Both the dataset and its source code are licensed under the Apache License 2.0.

创建时间：

2024-07-08

原始信息汇总

Danbooru2023 - Florence2 Caption 数据集

概述

该数据集包含由 microsoft/Florence-2-large 生成的 danbooru2023 图像的描述。使用原始数据集和 <MORE_DETAILED_CAPTION> 任务令牌。

格式

数据集格式为 parquet：

key: 图像的 danbooru id
parsed: 图像的 Florence 2 输出解析

统计信息

MORE_DETAILED_CAPTION

条目数: 7,438,449
输出令牌 (最小/最大/平均/中位数):
- Flan T5 Tokenizer: 19/736/120/114
- DFN CLIP Tokenizer: 19/826/108.7/103
- Qwen2 Tokenizer: 17/883/106.8/101
输出格式:
- "The image shows ...": 690,027
- "The image is ... of ...": 6,665,897
- 其他: 82,525
时间成本: 约 7~10 天（4x3090）

DETAILED_CAPTION

条目数: 7,439,002
输出令牌 (最小/最大/平均/中位数):
- Flan T5 Tokenizer: 10/649/56.67/55
- DFN CLIP Tokenizer: 10/742/51.06/49
- Qwen2 Tokenizer: 8/871/49.47/48
输出格式:
- "The image shows ...": 5,739,496
- "This is an ...": 1,634,386
- 其他: 65,120
时间成本: 约 4~5 天（4x3090）

许可证

该数据集及其提供的源代码基于 Apache-License 2 许可证。

搜集汇总

数据集介绍

构建方式

Danbooru2023 - Florence2 Caption数据集是通过Microsoft的Florence-2-large模型对Danbooru2023图像生成的描述文本构建而成。该数据集采用了<MORE_DETAILED_CAPTION>任务标记，确保生成的描述具有更高的细节度。数据以parquet格式存储，每个条目包含图像的Danbooru ID和Florence-2模型解析后的输出。整个构建过程在4块3090显卡上耗时约7至10天完成。

使用方法

该数据集可用于训练和评估多模态模型，特别是在图像描述生成任务中表现出色。用户可以通过加载parquet文件，获取图像的ID和对应的详细描述文本。数据集支持多种tokenizer，如Flan T5、DFN CLIP和Qwen2，便于在不同模型架构中进行实验。此外，数据集还可用于研究图像与文本之间的语义关联，或作为生成式模型的预训练数据。

背景与挑战

背景概述

Danbooru2023-Florence2-Caption数据集是一个专注于图像与文本交互的多模态数据集，由Microsoft的Florence-2-large模型生成，旨在为Danbooru2023图像提供详细的文本描述。该数据集于2023年发布，涵盖了超过740万条图像描述，主要应用于文本生成、图像到文本以及文本到图像的任务。其核心研究问题在于如何通过大规模预训练模型生成高质量、多样化的图像描述，从而推动多模态学习领域的发展。该数据集的发布为图像理解、文本生成以及跨模态检索等任务提供了重要的数据支持，进一步促进了计算机视觉与自然语言处理的交叉研究。

当前挑战

Danbooru2023-Florence2-Caption数据集在解决图像描述生成问题时面临多重挑战。首先，生成高质量且多样化的图像描述需要模型具备强大的语义理解能力，而如何平衡描述的准确性与多样性是一个关键难题。其次，数据集的构建过程中，处理大规模图像数据并生成数百万条描述需要极高的计算资源，例如在4张3090显卡上运行7至10天，这对硬件和算法效率提出了严峻考验。此外，数据集中描述的格式和长度分布不均，如何确保生成文本的一致性和可读性也是构建过程中的重要挑战。这些挑战不仅影响了数据集的生成效率，也对后续的多模态任务提出了更高的要求。

常用场景

经典使用场景

在计算机视觉与自然语言处理的交叉领域，Danbooru2023-Florence2-Caption数据集为研究者提供了一个丰富的资源，用于探索图像与文本之间的复杂关系。该数据集通过Microsoft的Florence-2模型生成的详细图像描述，为图像到文本的生成任务提供了高质量的标注数据，广泛应用于图像描述生成、文本到图像的检索等任务。

解决学术问题

该数据集解决了图像描述生成任务中的关键问题，即如何生成与图像内容高度相关的详细文本描述。通过提供数百万条经过精细解析的图像描述，研究者可以更好地训练和评估生成模型，提升模型在生成描述时的准确性和多样性。此外，该数据集还为多模态学习提供了重要的数据支持，推动了图像与文本联合建模的研究进展。

实际应用

在实际应用中，Danbooru2023-Florence2-Caption数据集为图像搜索引擎、自动图像标注系统以及辅助创作工具提供了强大的数据支持。例如，在图像搜索引擎中，该数据集可以帮助系统生成更精确的图像描述，从而提升搜索结果的相关性。在艺术创作领域，该数据集可以辅助生成与图像内容匹配的文本描述，为创作者提供灵感。

数据集最近研究