five

LLaVA-Pretrain

收藏
Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/LLaVA-Pretrain
下载链接
链接失效反馈
官方服务:
资源简介:
LLaVA Pretrain仓库提供了一个用于视觉指令调整中特征对齐的预训练数据集,其核心定位是构建能够理解GPT-4视觉/语言能力的大型多模态模型。该数据集包含558K个样本,是LAION/CC/SBU数据集的子集,经过筛选以实现更平衡的概念覆盖分布,并附带BLIP合成字幕作为参考。数据集中包含图像-字幕对的多模态合成对话,以及图像文件名、图像URL和合成BLIP字幕等元数据。该数据集主要用于大型多模态模型和聊天机器人的研究,使用者需遵守CC-3M和BLIP的许可协议。
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作