five

liuhaotian/LLaVA-Pretrain|人工智能数据集|多模态学习数据集

收藏
hugging_face2023-07-06 更新2024-03-04 收录
人工智能
多模态学习
下载链接:
https://hf-mirror.com/datasets/liuhaotian/LLaVA-Pretrain
下载链接
链接失效反馈
资源简介:
LLaVA视觉指令预训练数据集是一个经过筛选的LAION/CC/SBU数据集子集,旨在通过更平衡的概念覆盖分布来优化视觉指令预训练。该数据集包含图像和与BLIP合成标题关联的描述,用于预训练阶段以实现视觉指令调谐中的特征对齐。我们的目标是构建一个大型多模态模型,以达到GPT-4的视觉和语言能力。
提供机构:
liuhaotian
原始信息汇总

LLaVA Visual Instruct Pretrain 数据集卡片

数据集详情

数据集类型: LLaVA Visual Instruct Pretrain LCS-558K 是 LAION/CC/SBU 数据集的一个子集,经过筛选以实现更平衡的概念覆盖分布。字幕与 BLIP 合成字幕 相关联,供参考。该数据集用于视觉指令调优的预训练阶段,旨在构建面向 GPT-4 视觉/语言能力的大型多模态模型。

数据集日期: LLaVA Visual Instruct CC3M Pretrain 595K 创建于 2023 年 5 月。

数据集结构:

  • blip_laion_cc_sbu_558k.json 包含从图像-字幕对生成的多模态合成对话,通过添加随机选择的指令,如 "描述这张图片"。用于 LLaVA 的预训练。我们使用原始 CC-3M 字幕作为默认答案。
  • blip_laion_cc_sbu_558k_meta.json 包含图像文件名、图像 URL 和合成 BLIP 字幕的元数据。
  • images.zip 包含从 LAION/CC/SBU 筛选出的子集的所有原始图像。重要提示:根据社区请求,由于原始 LAION/CC/SBU 数据集的约 15% 图像不再可访问,我们上传了 images.zip 以便更好地在研究社区中复现我们的工作。这些图像不得用于任何其他目的。使用这些图像必须遵守 LAION/CC/SBU 许可。当原始 LAION/CC/SBU 数据集所有者或引用图像所有者请求时,这些图像可能会被删除。

更多信息资源或论文: LLaVA 项目页面

许可: 必须遵守 CC-3MBLIP(如果您使用他们的合成字幕)的许可。

CC-3M 该数据集可自由用于任何目的,尽管对 Google LLC ("Google") 作为数据源的认可将受到赞赏。该数据集以 "AS IS" 形式提供,没有任何明示或暗示的保证。Google 不承担因使用该数据集而导致的任何直接或间接损害的责任。

关于模型的疑问或评论发送至: LLaVA GitHub 问题页面

预期用途

主要预期用途: LLaVA 的主要用途是进行大型多模态模型和聊天机器人的研究。

主要预期用户: 该模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

AI搜集汇总
数据集介绍
main_image_url
构建方式
LLaVA-Pretrain数据集是从LAION/CC/SBU数据集中筛选出的一个子集,经过精心调整以确保概念覆盖的平衡分布。该数据集的构建旨在为视觉指令调优的预训练阶段提供支持,特别关注特征对齐。数据集中的图像与BLIP生成的合成标题相结合,形成多模态对话,通过随机添加指令如“描述这张图片”来增强训练效果。此外,为了确保研究的再现性,数据集还包含了原始图像文件,尽管这些图像的使用必须遵守LAION/CC/SBU的许可协议。
特点
LLaVA-Pretrain数据集的显著特点在于其多模态对话的合成方式,通过结合图像和BLIP生成的合成标题,增强了视觉与语言之间的交互。数据集的筛选过程确保了概念覆盖的平衡,使得模型在预训练阶段能够获得更为均衡的学习体验。此外,数据集包含了详细的元数据,如图像文件名、URL和合成标题,为研究者提供了丰富的资源。
使用方法
LLaVA-Pretrain数据集主要用于大型多模态模型和聊天机器人的研究。研究者可以通过使用`blip_laion_cc_sbu_558k.json`文件进行预训练,该文件包含了多模态对话数据。同时,`blip_laion_cc_sbu_558k_meta.json`文件提供了图像的元数据,便于进一步分析和处理。图像文件则包含在`images.zip`中,用于支持研究的再现性。使用该数据集时,必须遵守相关的许可协议,特别是CC-3M和BLIP的许可条款。
背景与挑战
背景概述
LLaVA Visual Instruct Pretrain数据集,由liuhaotian团队于2023年5月创建,旨在为视觉指令调优阶段的特征对齐提供预训练支持。该数据集是LAION/CC/SBU数据集的一个子集,经过筛选以实现更均衡的概念覆盖分布,并结合了BLIP合成描述,以增强多模态模型的视觉与语言能力。其核心研究问题聚焦于构建具有GPT-4级别视觉与语言处理能力的大规模多模态模型,对计算机视觉与自然语言处理领域的研究具有重要推动作用。
当前挑战
LLaVA数据集在构建过程中面临多重挑战。首先,从LAION/CC/SBU数据集中筛选出558K图像子集,需确保概念覆盖的均衡性,这对数据筛选算法提出了较高要求。其次,合成BLIP描述的引入增加了数据处理的复杂性,需确保描述与图像内容的高度匹配。此外,由于部分原始图像不可访问,数据集的完整性与可用性也面临挑战,需在社区需求与版权合规之间寻求平衡。这些挑战共同构成了LLaVA数据集在多模态模型研究中的重要课题。
常用场景
经典使用场景
在视觉指令调优的预训练阶段,liuhaotian/LLaVA-Pretrain数据集展现了其经典应用场景。该数据集通过整合LAION/CC/SBU数据集的子集,并结合BLIP合成字幕,构建了多模态的对话数据。具体而言,数据集中的图像与字幕对被赋予随机指令,如‘描述这张图片’,从而为视觉指令调优提供了丰富的训练材料。这种设计使得模型能够在预训练阶段实现特征对齐,为后续的多模态模型训练奠定了坚实基础。
衍生相关工作
liuhaotian/LLaVA-Pretrain数据集的发布催生了一系列相关研究工作。研究者们利用该数据集进行多模态模型的预训练和微调,探索了视觉与语言特征的深度融合。例如,有研究基于此数据集开发了新的多模态对话系统,显著提升了模型的交互能力和理解精度。此外,该数据集还激发了对多模态学习理论的进一步探讨,推动了相关领域的技术进步和创新。
数据集最近研究
最新研究方向
在多模态学习领域,liuhaotian/LLaVA-Pretrain数据集的最新研究方向聚焦于视觉指令调优中的特征对齐。该数据集通过从LAION/CC/SBU数据集中筛选出具有平衡概念覆盖分布的子集,并结合BLIP合成字幕,构建了用于预训练的多模态对话数据。这一研究不仅推动了多模态模型向GPT-4级别的视觉语言能力迈进,还为计算机视觉与自然语言处理的交叉研究提供了新的实验平台。其核心目标是通过大规模多模态数据的预训练,提升模型在视觉指令理解与生成方面的表现,从而为智能对话系统和视觉问答任务提供更强大的支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Awesome JSON Datasets

一个精选的无需认证的JSON数据集列表。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Online Retail II

该在线零售II数据集包含了一家英国注册的非实体店铺在线零售商在2009年12月1日至2011年12月9日期间发生的所有交易记录。该公司主要销售各种场合的独特礼品。该公司的许多客户是批发商。

github 收录

NREL Wind Integration National Dataset (WIND) Toolkit

NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据,覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。

www.nrel.gov 收录