five

flickr-megalith-10m-internvl2-multi-caption

收藏
Hugging Face2024-08-28 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/CaptionEmporium/flickr-megalith-10m-internvl2-multi-caption
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含约5730万条合成描述的数据集,针对[madebyollin/megalith-10m](https://huggingface.co/datasets/madebyollin/megalith-10m)中的图像。它包括由CaptionEmporium生成的InternVL2 8B长描述和短描述,以及由aipicasso和CaptionEmporium生成的Florence2长描述和短描述,还有由drawthingsai和CaptionEmporium生成的ShareCaptioner长描述和短描述。这些描述是通过OpenGVLab/InternVL2-8B生成的,短描述则通过meta-llama/Meta-Llama-3.1-8B-Instruct生成。数据集主要用于训练文本到图像的模型和其他机器学习任务,文本主要为英语,偶尔包含图像中其他语言的转录。
创建时间:
2024-08-28
原始信息汇总

数据集卡片 for flickr-megalith-10m-internvl2-multi-caption

数据集描述

  • 联系人: Caption Emporium

数据集概述

该数据集包含约5730万条合成描述,用于madebyollin/megalith-10m中的图像。

包含以下描述:

  1. InternVL2 8B长描述(由CaptionEmporium生成)
  2. InternVL2 8B短描述(由CaptionEmporium生成)
  3. Florence2长描述(由aipicasso生成)
  4. Florence2短描述(由CaptionEmporium生成)
  5. ShareCaptioner长描述(由drawthingsai生成)
  6. ShareCaptioner短描述(由CaptionEmporium生成)

描述由OpenGVLab/InternVL2-8B生成。短描述均由meta-llama/Meta-Llama-3.1-8B-Instruct生成。图像的高分辨率版本的高度和宽度信息已根据drawthingsai的数据集填充。

语言

文本为英语,但偶尔会转录图像中的其他语言文本。

预期用途

用于训练文本到图像模型和其他机器学习任务。

数据分割

数据集名称 训练集大小
flickr-megalith-10m-internvl2-multi-caption 9549801

数据集创建

数据集生成

使用以下提示生成描述:

py PROMPT = """ 请为这张图片制作一个详细的描述。如果你看到文本或物体,请确保详细描述它们以及前景和背景的其他方面。

只输出你在图像中看到的内容,不要添加修饰或更深层次的解释,同时对可见的事物做出自信的断言。

例如,而不是:

在海洋中潜水的海星的特写视图。海星的臂上有许多微小的管足可见,形成了一个有纹理和复杂的图案。它的颜色似乎是浅棕色和米色的混合,管足增加了一些白色。背景是暗的,暗示着海洋的深度,它似乎是一个自然栖息地而不是水族馆设置。焦点锐利地集中在海星上,捕捉其解剖结构的细节,而周围环境略微失焦,突出了生物。图像散发出一种宁静和异国情调的感觉,突出了海洋生物的美丽和复杂性。

写:

在海洋中潜水的海星的特写视图。海星的臂上有许多微小的管足可见,形成了一个有纹理和复杂的图案。它的颜色是浅棕色和米色的混合,管足增加了一些白色。背景是暗的,暗示着海洋的深度,它位于自然环境而不是水族馆设置。焦点锐利地集中在海星上,捕捉其解剖结构的细节,而周围环境略微失焦,突出了生物。

现在开始描述,只写描述: """

生成描述后,根据anime-caption-danbooru-2021-sfw-5m-hq的要求去除了前缀。与其他VLM相比,InternVL2仅产生了少量(0.1%)包含重复序列的损坏描述。这些描述使用meta-llama/Meta-Llama-3.1-8B-Instruct手动修复。

同样,Florence2(0.01%)和ShareCaptioner(2.8%)描述中也有重复幻觉的坏描述。这些描述以相同的方式进行了修正。

短描述是从这些描述池中使用meta-llama/Meta-Llama-3.1-8B-Instruct和以下提示生成的:

py prompt_1 = lambda img_prompt: f""" 请将以下图像描述简化为一个句子。去除任何冗余的行或描述,并使其长度不超过30个单词。

{img_prompt}

请只写描述,不写其他文本。 """

数据实例

一个数据行的示例:

py {caption_florence2: 两个年轻的孩子,一个男孩和一个女孩,蹲在楼梯前的一块地上。女孩穿着带有白色圆点的粉色夹克和粉色鞋子,手里拿着一支蓝色蜡笔。男孩也穿着蓝色夹克,跪在她旁边。他们都低头看着地面,似乎在参与一个游戏或活动。楼梯左侧有一个写着“球”、“写”和“苹果”的标志。背景是一堵混凝土墙。, caption_florence2_short: 两个孩子,一个男孩和一个女孩,蹲在楼梯前的一块地上,楼梯上有一个写着“球”、“写”和“苹果”的标志。, caption_internlm2: 一个穿着亮粉色冬装的年轻女孩的特写视图,蹲在石头地板上。她手里拿着一个蓝色物体,可能是笔或小玩具。在她右边,一个穿着蓝色冬装的年轻男孩蹲下,面对着她,似乎在与她互动或帮助她拿物体。两个孩子都有深色的头发。背景包括一个带有手扶梯的楼梯,其中一个手扶梯上写着“球”,另一个部分被遮挡,但似乎写着“rite”。男孩右边有一堆衣服或毛巾,整体设置似乎在一个公共区域,有石头地板和墙壁。, caption_internlm2_short: 两个孩子,一个穿着粉色夹克的女孩和一个穿着蓝色夹克的男孩,在一个公共区域的石头地板上互动。, caption_sharecap: 有两个孩子沉浸在瓷砖地板上的游戏中。左边的孩子穿着粉色外套和圆点裤,手里拿着一个蓝色玩具。右边的孩子穿着蓝色外套和灰色裤子,伸手去拿同一个玩具。他们位于一个楼梯前,楼梯上有一个写着“苹果”的标志。场景捕捉了一个无辜玩耍和探索的时刻。, caption_sharecap_short: 两个孩子,一个穿着粉色,一个穿着蓝色,在瓷砖地板上争夺一个玩具,楼梯前有一个写着“苹果”的标志。, exif: {"Image Artist": "LEAF_Yeh", "Image ExifOffset": "48"}, height: 683, url: https://farm2.staticflickr.com/1598/24197167113_3bbc741455.jpg, url_highres: https://farm2.staticflickr.com/1598/24197167113_3bbc741455_b.jpg, url_source: https://www.flickr.com/photos/37161495@N00/24197167113, width: 1024}

偏见讨论

该数据集偏向于Flickr用户上传的摄影内容。

已知限制

  • 描述未经手动验证,可能存在错误。
  • 这些不是Flickr上图像的最高分辨率版本,需要直接查询Flickr API以获取这些链接。如果将来有人查找它们,请随时在问题中链接,我将更新数据集。
  • 某些行可能缺少某些来源的描述,因为下载的所有图像集合并不完全重叠。在这些情况下,描述只是空字符串。

附加信息

数据集下载

该数据集由drawthingsai上传,但缺少一些包含在InternVL2和Florence2描述中的行。您可能希望使用img2dataset手动下载。

数据集策展人

特别感谢

SilentAntagonist提供了数据集和一些必要的计算资源。

许可信息

该数据集在Creative Commons ShareAlike (CC BY-SA 4.0)下可用。

引用信息

@misc{flickr-megalith-10m-internvl2-multi-caption, author = { Caption Emporium }, title = {flickr-megalith-10m-internvl2-multi-caption}, year = {2024}, publisher = {Huggingface}, journal = {Huggingface repository}, howpublished = {url{https://huggingface.co/datasets/CaptionEmporium/flickr-megalith-10m-internvl2-multi-caption}}, }

搜集汇总
数据集介绍
main_image_url
构建方式
flickr-megalith-10m-internvl2-multi-caption数据集的构建基于Flickr平台上的图像资源,通过多种先进的视觉语言模型(如InternVL2-8B、Florence2和ShareCaptioner)生成合成描述。这些模型生成了长、短两种形式的图像描述,涵盖了图像的细节与背景信息。为确保描述的质量,数据集构建过程中对重复序列和幻觉描述进行了手动修正,并使用Meta-Llama-3.1-8B-Instruct模型进一步优化短描述。
特点
该数据集包含约5730万条合成描述,覆盖了Flickr平台上的大量图像资源。其独特之处在于提供了多种来源的长、短描述,包括InternVL2、Florence2和ShareCaptioner生成的文本。这些描述不仅详细描述了图像中的物体、场景和背景,还通过短描述形式提供了简洁的概括。此外,数据集还包含了图像的高分辨率链接和元数据信息,为多模态学习任务提供了丰富的上下文支持。
使用方法
flickr-megalith-10m-internvl2-multi-caption数据集适用于训练文本到图像生成模型、图像到文本生成模型以及其他多模态机器学习任务。用户可以通过Hugging Face平台直接下载数据集,或使用img2dataset工具进行批量下载。数据集中的长、短描述可用于对比学习、描述生成和图像理解等任务。此外,用户还可以结合Flickr API获取更高分辨率的图像资源,以进一步提升模型的训练效果。
背景与挑战
背景概述
flickr-megalith-10m-internvl2-multi-caption数据集由Caption Emporium于2024年发布,旨在为图像生成多样化的文本描述。该数据集基于madebyollin/megalith-10m图像集,生成了约5730万条合成描述,涵盖了InternVL2 8B、Florence2和ShareCaptioner等多种模型生成的长短描述。数据集的主要应用场景包括文本到图像生成、图像到文本生成等机器学习任务。通过结合多种先进的视觉语言模型,该数据集为图像描述任务提供了丰富的训练资源,推动了多模态学习领域的发展。
当前挑战
该数据集在构建过程中面临多重挑战。首先,图像描述的生成依赖于多种模型,尽管InternVL2模型生成的描述质量较高,但仍存在少量重复或错误的描述(约0.1%),需通过Meta-Llama-3.1-8B-Instruct模型进行修正。其次,Florence2和ShareCaptioner生成的描述中分别存在0.01%和2.8%的重复或幻觉问题,同样需要人工干预修正。此外,数据集中的图像分辨率并非最高版本,用户需通过Flickr API获取更高分辨率图像。最后,由于不同来源的图像集不完全重叠,部分图像可能缺少某些模型的描述,这为数据集的完整性和一致性带来了挑战。
常用场景
经典使用场景
flickr-megalith-10m-internvl2-multi-caption数据集在图像生成与文本描述领域具有广泛的应用。该数据集通过提供超过5700万条合成图像描述,为训练文本到图像生成模型提供了丰富的素材。其经典使用场景包括图像生成模型的预训练与微调,尤其是在生成高质量图像描述时,能够显著提升模型的生成能力与多样性。
衍生相关工作
该数据集衍生了许多经典的多模态学习与图像生成研究。例如,基于该数据集的研究工作推动了多模态预训练模型(如InternVL2)的发展,这些模型在图像生成与文本描述任务中表现出色。此外,数据集还被用于改进图像生成模型的多样性控制与描述准确性,相关研究成果已在多个顶级会议与期刊上发表。
数据集最近研究
最新研究方向
近年来,随着多模态学习技术的快速发展,图像与文本的联合建模成为研究热点。flickr-megalith-10m-internvl2-multi-caption数据集作为一项重要的图像-文本数据集,为文本生成图像和图像生成文本任务提供了丰富的训练资源。该数据集通过InternVL2、Florence2和ShareCaptioner等多种模型生成的多重描述,显著提升了图像描述的多样性和准确性。当前研究主要聚焦于如何利用这些高质量的合成描述,进一步提升多模态模型的泛化能力和生成质量。此外,该数据集在图像理解、视觉问答和跨模态检索等任务中的应用也备受关注,为相关领域的研究提供了新的数据支持和技术突破点。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作