liuhaotian/LLaVA-Pretrain

Name: liuhaotian/LLaVA-Pretrain
Creator: liuhaotian
Published: 2023-07-06 08:47:38
License: 暂无描述

Hugging Face2023-07-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/liuhaotian/LLaVA-Pretrain

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: other language: - en pretty_name: LLaVA Pretrain --- # LLaVA Visual Instruct Pretrain Dataset Card ## Dataset details **Dataset type:** LLaVA Visual Instruct Pretrain LCS-558K is a subset of LAION/CC/SBU dataset, filtered with a more balanced concept coverage distribution. Captions are also associated with [BLIP synthetic caption](https://github.com/salesforce/BLIP#pre-training-datasets-download) for reference. It is constructed for the pretraining stage for feature alignment in visual instruction tuning. We aim to build large multimodal towards GPT-4 vision/language capability. **Dataset date:** LLaVA Visual Instruct CC3M Pretrain 595K was created in May 2023. **Dataset structure:** - `blip_laion_cc_sbu_558k.json` contains the multimodal synthesized conversation from the image-caption pairs, by adding randomly selected instructions like: "Describe this image". It is used for pretraining in LLaVA. We use the raw CC-3M caption as the default answer. - `blip_laion_cc_sbu_558k_meta.json` contains the meta data of the image file name, image URL, synthetic BLIP caption. - `images.zip` contains all raw images of the filtered subset from LAION/CC/SBU. Important notice: Upon the request from the community, as ~15% images of the original LAION/CC/SBU dataset are no longer accessible, we upload images.zip for better reproducing our work in research community. It should not be used for any other purpose. The use of these images must comply with the LAION/CC/SBU license. This may be taken down when requested by the original LAION/CC/SBU dataset owner or owners of the referenced images. **Paper or resources for more information:** https://llava-vl.github.io/ **License:** Must comply with license of [CC-3M](https://github.com/google-research-datasets/conceptual-captions/blob/master/LICENSE), [BLIP](https://github.com/salesforce/BLIP/blob/main/LICENSE.txt) (if you use their synthetic caption). CC-3M The dataset may be freely used for any purpose, although acknowledgement of Google LLC ("Google") as the data source would be appreciated. The dataset is provided "AS IS" without any warranty, express or implied. Google disclaims all liability for any damages, direct or indirect, resulting from the use of the dataset. **Where to send questions or comments about the model:** https://github.com/haotian-liu/LLaVA/issues ## Intended use **Primary intended uses:** The primary use of LLaVA is research on large multimodal models and chatbots. **Primary intended users:** The primary intended users of the model are researchers and hobbyists in computer vision, natural language processing, machine learning, and artificial intelligence.

许可证：其他语言： - 英语展示名称：LLaVA预训练 # LLaVA视觉指令预训练数据集卡片 ## 数据集详情 **数据集类型：** LLaVA视觉指令预训练LCS-558K是LAION/CC/SBU数据集的子集，经筛选后实现了更均衡的概念覆盖分布。其标注文本均关联了[BLIP合成标注（BLIP synthetic caption）](https://github.com/salesforce/BLIP#pre-training-datasets-download)以供参考。该数据集专为视觉指令微调阶段的特征对齐预训练构建，旨在打造具备GPT-4视觉-语言能力的大型多模态模型。 **数据集创建时间：** LLaVA视觉指令CC3M预训练595K数据集创建于2023年5月。 **数据集结构：** - `blip_laion_cc_sbu_558k.json`：包含基于图像-标注对生成的多模态合成对话，通过随机添加“描述此图像”类指令构建，用于LLaVA的预训练流程。我们以原始CC-3M标注作为默认回答。 - `blip_laion_cc_sbu_558k_meta.json`：包含图像文件名、图像URL、BLIP合成标注等元数据。 - `images.zip`：包含从LAION/CC/SBU数据集中筛选出的所有原始图像。重要提示：应社区反馈，原始LAION/CC/SBU数据集约15%的图像已无法访问，我们上传images.zip以助力研究社区复现我们的工作成果，该文件不得用于其他用途。使用这些图像需遵守LAION/CC/SBU的许可证协议。若原始LAION/CC/SBU数据集所有者或相关图像所有者提出要求，该文件可能会被下架。 **更多信息参考资源或论文：** https://llava-vl.github.io/ **许可证：** 需遵守[CC-3M](https://github.com/google-research-datasets/conceptual-captions/blob/master/LICENSE)及[BLIP](https://github.com/salesforce/BLIP/blob/main/LICENSE.txt)（若使用其合成标注）的许可证协议。 CC-3M：本数据集可自由用于任何用途，若能注明Google LLC为数据源将不胜感激。本数据集按“现状”提供，不附带任何明示或暗示的担保。Google概不承担因使用本数据集而产生的任何直接或间接损害赔偿责任。 **疑问与意见反馈渠道：** https://github.com/haotian-liu/LLaVA/issues ## 预期用途 **主要预期用途：** 本数据集主要用于大型多模态模型及聊天机器人相关研究。 **主要目标用户：** 本数据集的主要目标用户为计算机视觉、自然语言处理、机器学习及人工智能领域的研究人员与爱好者。

提供机构：

liuhaotian

原始信息汇总

LLaVA Visual Instruct Pretrain 数据集卡片

数据集详情

数据集类型： LLaVA Visual Instruct Pretrain LCS-558K 是 LAION/CC/SBU 数据集的一个子集，经过筛选以实现更平衡的概念覆盖分布。字幕与 BLIP 合成字幕相关联，供参考。该数据集用于视觉指令调优的预训练阶段，旨在构建面向 GPT-4 视觉/语言能力的大型多模态模型。

数据集日期： LLaVA Visual Instruct CC3M Pretrain 595K 创建于 2023 年 5 月。

数据集结构：

blip_laion_cc_sbu_558k.json 包含从图像-字幕对生成的多模态合成对话，通过添加随机选择的指令，如 "描述这张图片"。用于 LLaVA 的预训练。我们使用原始 CC-3M 字幕作为默认答案。
blip_laion_cc_sbu_558k_meta.json 包含图像文件名、图像 URL 和合成 BLIP 字幕的元数据。
images.zip 包含从 LAION/CC/SBU 筛选出的子集的所有原始图像。重要提示：根据社区请求，由于原始 LAION/CC/SBU 数据集的约 15% 图像不再可访问，我们上传了 images.zip 以便更好地在研究社区中复现我们的工作。这些图像不得用于任何其他目的。使用这些图像必须遵守 LAION/CC/SBU 许可。当原始 LAION/CC/SBU 数据集所有者或引用图像所有者请求时，这些图像可能会被删除。

更多信息资源或论文： LLaVA 项目页面

许可： 必须遵守 CC-3M 和 BLIP（如果您使用他们的合成字幕）的许可。

CC-3M 该数据集可自由用于任何目的，尽管对 Google LLC ("Google") 作为数据源的认可将受到赞赏。该数据集以 "AS IS" 形式提供，没有任何明示或暗示的保证。Google 不承担因使用该数据集而导致的任何直接或间接损害的责任。

关于模型的疑问或评论发送至： LLaVA GitHub 问题页面

预期用途

主要预期用途： LLaVA 的主要用途是进行大型多模态模型和聊天机器人的研究。

主要预期用户： 该模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

搜集汇总

数据集介绍

构建方式

LLaVA-Pretrain数据集是从LAION/CC/SBU数据集中筛选出的一个子集，经过精心调整以确保概念覆盖的平衡分布。该数据集的构建旨在为视觉指令调优的预训练阶段提供支持，特别关注特征对齐。数据集中的图像与BLIP生成的合成标题相结合，形成多模态对话，通过随机添加指令如“描述这张图片”来增强训练效果。此外，为了确保研究的再现性，数据集还包含了原始图像文件，尽管这些图像的使用必须遵守LAION/CC/SBU的许可协议。

特点

LLaVA-Pretrain数据集的显著特点在于其多模态对话的合成方式，通过结合图像和BLIP生成的合成标题，增强了视觉与语言之间的交互。数据集的筛选过程确保了概念覆盖的平衡，使得模型在预训练阶段能够获得更为均衡的学习体验。此外，数据集包含了详细的元数据，如图像文件名、URL和合成标题，为研究者提供了丰富的资源。

使用方法

LLaVA-Pretrain数据集主要用于大型多模态模型和聊天机器人的研究。研究者可以通过使用`blip_laion_cc_sbu_558k.json`文件进行预训练，该文件包含了多模态对话数据。同时，`blip_laion_cc_sbu_558k_meta.json`文件提供了图像的元数据，便于进一步分析和处理。图像文件则包含在`images.zip`中，用于支持研究的再现性。使用该数据集时，必须遵守相关的许可协议，特别是CC-3M和BLIP的许可条款。

背景与挑战

背景概述

LLaVA Visual Instruct Pretrain数据集，由liuhaotian团队于2023年5月创建，旨在为视觉指令调优阶段的特征对齐提供预训练支持。该数据集是LAION/CC/SBU数据集的一个子集，经过筛选以实现更均衡的概念覆盖分布，并结合了BLIP合成描述，以增强多模态模型的视觉与语言能力。其核心研究问题聚焦于构建具有GPT-4级别视觉与语言处理能力的大规模多模态模型，对计算机视觉与自然语言处理领域的研究具有重要推动作用。

当前挑战

LLaVA数据集在构建过程中面临多重挑战。首先，从LAION/CC/SBU数据集中筛选出558K图像子集，需确保概念覆盖的均衡性，这对数据筛选算法提出了较高要求。其次，合成BLIP描述的引入增加了数据处理的复杂性，需确保描述与图像内容的高度匹配。此外，由于部分原始图像不可访问，数据集的完整性与可用性也面临挑战，需在社区需求与版权合规之间寻求平衡。这些挑战共同构成了LLaVA数据集在多模态模型研究中的重要课题。

常用场景

经典使用场景

在视觉指令调优的预训练阶段，liuhaotian/LLaVA-Pretrain数据集展现了其经典应用场景。该数据集通过整合LAION/CC/SBU数据集的子集，并结合BLIP合成字幕，构建了多模态的对话数据。具体而言，数据集中的图像与字幕对被赋予随机指令，如‘描述这张图片’，从而为视觉指令调优提供了丰富的训练材料。这种设计使得模型能够在预训练阶段实现特征对齐，为后续的多模态模型训练奠定了坚实基础。

衍生相关工作

liuhaotian/LLaVA-Pretrain数据集的发布催生了一系列相关研究工作。研究者们利用该数据集进行多模态模型的预训练和微调，探索了视觉与语言特征的深度融合。例如，有研究基于此数据集开发了新的多模态对话系统，显著提升了模型的交互能力和理解精度。此外，该数据集还激发了对多模态学习理论的进一步探讨，推动了相关领域的技术进步和创新。

数据集最近研究