flickr-megalith-10m-internvl2-multi-caption

Hugging Face2024-08-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/CaptionEmporium/flickr-megalith-10m-internvl2-multi-caption

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含约5730万条合成描述的数据集，针对[madebyollin/megalith-10m](https://huggingface.co/datasets/madebyollin/megalith-10m)中的图像。它包括由CaptionEmporium生成的InternVL2 8B长描述和短描述，以及由aipicasso和CaptionEmporium生成的Florence2长描述和短描述，还有由drawthingsai和CaptionEmporium生成的ShareCaptioner长描述和短描述。这些描述是通过OpenGVLab/InternVL2-8B生成的，短描述则通过meta-llama/Meta-Llama-3.1-8B-Instruct生成。数据集主要用于训练文本到图像的模型和其他机器学习任务，文本主要为英语，偶尔包含图像中其他语言的转录。

创建时间：

2024-08-28

原始信息汇总

数据集卡片 for flickr-megalith-10m-internvl2-multi-caption

数据集描述

联系人： Caption Emporium

数据集概述

该数据集包含约5730万条合成描述，用于madebyollin/megalith-10m中的图像。

包含以下描述：

InternVL2 8B长描述（由CaptionEmporium生成）
InternVL2 8B短描述（由CaptionEmporium生成）
Florence2长描述（由aipicasso生成）
Florence2短描述（由CaptionEmporium生成）
ShareCaptioner长描述（由drawthingsai生成）
ShareCaptioner短描述（由CaptionEmporium生成）

描述由OpenGVLab/InternVL2-8B生成。短描述均由meta-llama/Meta-Llama-3.1-8B-Instruct生成。图像的高分辨率版本的高度和宽度信息已根据drawthingsai的数据集填充。

语言

文本为英语，但偶尔会转录图像中的其他语言文本。

预期用途

用于训练文本到图像模型和其他机器学习任务。

数据分割

数据集名称	训练集大小
flickr-megalith-10m-internvl2-multi-caption	9549801

数据集创建

数据集生成

使用以下提示生成描述：

py PROMPT = """ 请为这张图片制作一个详细的描述。如果你看到文本或物体，请确保详细描述它们以及前景和背景的其他方面。

只输出你在图像中看到的内容，不要添加修饰或更深层次的解释，同时对可见的事物做出自信的断言。

例如，而不是：

在海洋中潜水的海星的特写视图。海星的臂上有许多微小的管足可见，形成了一个有纹理和复杂的图案。它的颜色似乎是浅棕色和米色的混合，管足增加了一些白色。背景是暗的，暗示着海洋的深度，它似乎是一个自然栖息地而不是水族馆设置。焦点锐利地集中在海星上，捕捉其解剖结构的细节，而周围环境略微失焦，突出了生物。图像散发出一种宁静和异国情调的感觉，突出了海洋生物的美丽和复杂性。

写：

在海洋中潜水的海星的特写视图。海星的臂上有许多微小的管足可见，形成了一个有纹理和复杂的图案。它的颜色是浅棕色和米色的混合，管足增加了一些白色。背景是暗的，暗示着海洋的深度，它位于自然环境而不是水族馆设置。焦点锐利地集中在海星上，捕捉其解剖结构的细节，而周围环境略微失焦，突出了生物。

现在开始描述，只写描述： """

生成描述后，根据anime-caption-danbooru-2021-sfw-5m-hq的要求去除了前缀。与其他VLM相比，InternVL2仅产生了少量（0.1%）包含重复序列的损坏描述。这些描述使用meta-llama/Meta-Llama-3.1-8B-Instruct手动修复。

同样，Florence2（0.01%）和ShareCaptioner（2.8%）描述中也有重复幻觉的坏描述。这些描述以相同的方式进行了修正。

短描述是从这些描述池中使用meta-llama/Meta-Llama-3.1-8B-Instruct和以下提示生成的：

py prompt_1 = lambda img_prompt: f""" 请将以下图像描述简化为一个句子。去除任何冗余的行或描述，并使其长度不超过30个单词。

{img_prompt}

请只写描述，不写其他文本。 """

数据实例

一个数据行的示例：

py {caption_florence2: 两个年轻的孩子，一个男孩和一个女孩，蹲在楼梯前的一块地上。女孩穿着带有白色圆点的粉色夹克和粉色鞋子，手里拿着一支蓝色蜡笔。男孩也穿着蓝色夹克，跪在她旁边。他们都低头看着地面，似乎在参与一个游戏或活动。楼梯左侧有一个写着“球”、“写”和“苹果”的标志。背景是一堵混凝土墙。, caption_florence2_short: 两个孩子，一个男孩和一个女孩，蹲在楼梯前的一块地上，楼梯上有一个写着“球”、“写”和“苹果”的标志。, caption_internlm2: 一个穿着亮粉色冬装的年轻女孩的特写视图，蹲在石头地板上。她手里拿着一个蓝色物体，可能是笔或小玩具。在她右边，一个穿着蓝色冬装的年轻男孩蹲下，面对着她，似乎在与她互动或帮助她拿物体。两个孩子都有深色的头发。背景包括一个带有手扶梯的楼梯，其中一个手扶梯上写着“球”，另一个部分被遮挡，但似乎写着“rite”。男孩右边有一堆衣服或毛巾，整体设置似乎在一个公共区域，有石头地板和墙壁。, caption_internlm2_short: 两个孩子，一个穿着粉色夹克的女孩和一个穿着蓝色夹克的男孩，在一个公共区域的石头地板上互动。, caption_sharecap: 有两个孩子沉浸在瓷砖地板上的游戏中。左边的孩子穿着粉色外套和圆点裤，手里拿着一个蓝色玩具。右边的孩子穿着蓝色外套和灰色裤子，伸手去拿同一个玩具。他们位于一个楼梯前，楼梯上有一个写着“苹果”的标志。场景捕捉了一个无辜玩耍和探索的时刻。, caption_sharecap_short: 两个孩子，一个穿着粉色，一个穿着蓝色，在瓷砖地板上争夺一个玩具，楼梯前有一个写着“苹果”的标志。, exif: {"Image Artist": "LEAF_Yeh", "Image ExifOffset": "48"}, height: 683, url: https://farm2.staticflickr.com/1598/24197167113_3bbc741455.jpg, url_highres: https://farm2.staticflickr.com/1598/24197167113_3bbc741455_b.jpg, url_source: https://www.flickr.com/photos/37161495@N00/24197167113, width: 1024}

偏见讨论

该数据集偏向于Flickr用户上传的摄影内容。

已知限制

描述未经手动验证，可能存在错误。
这些不是Flickr上图像的最高分辨率版本，需要直接查询Flickr API以获取这些链接。如果将来有人查找它们，请随时在问题中链接，我将更新数据集。
某些行可能缺少某些来源的描述，因为下载的所有图像集合并不完全重叠。在这些情况下，描述只是空字符串。

附加信息

数据集下载

该数据集由drawthingsai上传，但缺少一些包含在InternVL2和Florence2描述中的行。您可能希望使用img2dataset手动下载。

数据集策展人

Caption Emporium
madebyollin（原始数据集）
aipicasso（Florence2描述）
drawthingsai（Sharecaptioner描述）

特别感谢

SilentAntagonist提供了数据集和一些必要的计算资源。

许可信息

该数据集在Creative Commons ShareAlike (CC BY-SA 4.0)下可用。

引用信息

@misc{flickr-megalith-10m-internvl2-multi-caption, author = { Caption Emporium }, title = {flickr-megalith-10m-internvl2-multi-caption}, year = {2024}, publisher = {Huggingface}, journal = {Huggingface repository}, howpublished = {url{https://huggingface.co/datasets/CaptionEmporium/flickr-megalith-10m-internvl2-multi-caption}}, }

搜集汇总

数据集介绍

构建方式

flickr-megalith-10m-internvl2-multi-caption数据集的构建基于Flickr平台上的图像资源，通过多种先进的视觉语言模型（如InternVL2-8B、Florence2和ShareCaptioner）生成合成描述。这些模型生成了长、短两种形式的图像描述，涵盖了图像的细节与背景信息。为确保描述的质量，数据集构建过程中对重复序列和幻觉描述进行了手动修正，并使用Meta-Llama-3.1-8B-Instruct模型进一步优化短描述。

特点

该数据集包含约5730万条合成描述，覆盖了Flickr平台上的大量图像资源。其独特之处在于提供了多种来源的长、短描述，包括InternVL2、Florence2和ShareCaptioner生成的文本。这些描述不仅详细描述了图像中的物体、场景和背景，还通过短描述形式提供了简洁的概括。此外，数据集还包含了图像的高分辨率链接和元数据信息，为多模态学习任务提供了丰富的上下文支持。

使用方法

flickr-megalith-10m-internvl2-multi-caption数据集适用于训练文本到图像生成模型、图像到文本生成模型以及其他多模态机器学习任务。用户可以通过Hugging Face平台直接下载数据集，或使用img2dataset工具进行批量下载。数据集中的长、短描述可用于对比学习、描述生成和图像理解等任务。此外，用户还可以结合Flickr API获取更高分辨率的图像资源，以进一步提升模型的训练效果。

背景与挑战

背景概述

flickr-megalith-10m-internvl2-multi-caption数据集由Caption Emporium于2024年发布，旨在为图像生成多样化的文本描述。该数据集基于madebyollin/megalith-10m图像集，生成了约5730万条合成描述，涵盖了InternVL2 8B、Florence2和ShareCaptioner等多种模型生成的长短描述。数据集的主要应用场景包括文本到图像生成、图像到文本生成等机器学习任务。通过结合多种先进的视觉语言模型，该数据集为图像描述任务提供了丰富的训练资源，推动了多模态学习领域的发展。

当前挑战

该数据集在构建过程中面临多重挑战。首先，图像描述的生成依赖于多种模型，尽管InternVL2模型生成的描述质量较高，但仍存在少量重复或错误的描述（约0.1%），需通过Meta-Llama-3.1-8B-Instruct模型进行修正。其次，Florence2和ShareCaptioner生成的描述中分别存在0.01%和2.8%的重复或幻觉问题，同样需要人工干预修正。此外，数据集中的图像分辨率并非最高版本，用户需通过Flickr API获取更高分辨率图像。最后，由于不同来源的图像集不完全重叠，部分图像可能缺少某些模型的描述，这为数据集的完整性和一致性带来了挑战。

常用场景

经典使用场景

flickr-megalith-10m-internvl2-multi-caption数据集在图像生成与文本描述领域具有广泛的应用。该数据集通过提供超过5700万条合成图像描述，为训练文本到图像生成模型提供了丰富的素材。其经典使用场景包括图像生成模型的预训练与微调，尤其是在生成高质量图像描述时，能够显著提升模型的生成能力与多样性。

衍生相关工作

该数据集衍生了许多经典的多模态学习与图像生成研究。例如，基于该数据集的研究工作推动了多模态预训练模型（如InternVL2）的发展，这些模型在图像生成与文本描述任务中表现出色。此外，数据集还被用于改进图像生成模型的多样性控制与描述准确性，相关研究成果已在多个顶级会议与期刊上发表。

数据集最近研究