liuhaotian/LLaVA-Instruct-150K
收藏Hugging Face2024-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/liuhaotian/LLaVA-Instruct-150K
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
task_categories:
- visual-question-answering
- question-answering
language:
- en
pretty_name: LLaVA Visual Instruct 150K
size_categories:
- 100K<n<1M
---
# LLaVA Visual Instruct 150K Dataset Card
## Dataset details
**Dataset type:**
LLaVA Visual Instruct 150K is a set of GPT-generated multimodal instruction-following data.
It is constructed for visual instruction tuning and for building large multimodal towards GPT-4 vision/language capability.
**Dataset date:**
LLaVA Visual Instruct 150K was collected in April 2023, by prompting GPT-4-0314 API.
**Paper or resources for more information:**
https://llava-vl.github.io/
**License:**
Creative Commons Attribution 4.0 International; and it should abide by the policy of OpenAI: https://openai.com/policies/terms-of-use
**Where to send questions or comments about the model:**
https://github.com/haotian-liu/LLaVA/issues
## Intended use
**Primary intended uses:**
The primary use of LLaVA is research on large multimodal models and chatbots.
**Primary intended users:**
The primary intended users of the model are researchers and hobbyists in computer vision, natural language processing, machine learning, and artificial intelligence.
许可证:CC BY 4.0
任务类别:
- 视觉问答(Visual Question Answering)
- 问答(Question Answering)
语言:
- 英语
展示名称:LLaVA视觉指令150K
规模区间:10万 < 样本数量 < 100万
# LLaVA视觉指令150K 数据集卡片
## 数据集详情
**数据集类型:**
LLaVA视觉指令150K是一组由GPT生成的多模态指令遵从数据集。其构建目的为支持视觉指令微调任务,以及研发具备GPT-4视觉与语言能力的大型多模态模型。
**数据集采集时间:**
LLaVA视觉指令150K于2023年4月通过调用GPT-4-0314 API完成采集构建。
**更多信息参考资源:**
https://llava-vl.github.io/
**许可证:**
本数据集采用知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International),同时需遵守OpenAI的使用政策:https://openai.com/policies/terms-of-use
**数据集问题反馈渠道:**
如需针对该数据集提出疑问或反馈,可访问:https://github.com/haotian-liu/LLaVA/issues
## 预期用途
**主要用途:**
该数据集主要用于大型多模态模型与聊天机器人的相关研究。
**主要受众:**
本数据集的目标用户为计算机视觉、自然语言处理、机器学习及人工智能领域的研究人员与爱好者。
提供机构:
liuhaotian
原始信息汇总
LLaVA Visual Instruct 150K 数据集概述
数据集详情
数据集类型
- 类型: GPT生成的多模态指令遵循数据集。
- 目的: 用于视觉指令调优和构建大型多模态模型,以接近GPT-4的视觉/语言能力。
数据集日期
- 收集时间: 2023年4月,通过GPT-4-0314 API生成。
许可证
- 许可证: 创意共享署名4.0国际许可。
- 遵守政策: 需遵守OpenAI的使用条款。
更多信息资源
- 相关论文或资源: 访问 LLaVA视觉语言项目网站。
预期用途
主要用途
- 研究方向: 大型多模态模型和聊天机器人的研究。
主要用户
- 目标用户: 计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
搜集汇总
数据集介绍

构建方式
在视觉-语言多模态研究领域,高质量指令数据的构建是推动模型发展的关键。LLaVA Visual Instruct 150K数据集通过调用GPT-4-0314 API生成,旨在模拟人类与多模态系统间的复杂交互。其构建过程聚焦于视觉指令调优,利用大规模语言模型的强大生成能力,自动合成涵盖丰富视觉场景的问答对,从而为训练具备GPT-4级别视觉与语言能力的大型多模态模型提供结构化数据支撑。
特点
该数据集的核心特点在于其规模与生成质量,包含超过15万条由GPT-4生成的多样化多模态指令遵循数据。这些数据紧密融合图像内容与自然语言指令,覆盖广泛的视觉理解与推理任务,为模型提供了近似人类专家水平的监督信号。数据格式统一且标注一致,有效促进了多模态模型在指令遵循、对话交互及跨模态对齐等方面的能力提升,成为视觉-语言研究中的重要基准资源。
使用方法
研究人员可将该数据集直接应用于视觉指令调优阶段,以增强多模态模型的指令理解与响应生成能力。典型使用流程包括加载图像与对应文本指令,输入到预训练的多模态架构中进行端到端训练。通过微调,模型能够学习将视觉信息与语言指令相结合,实现更精准的视觉问答、场景描述及复杂推理。该数据集适用于学术探索与实验验证,助力构建更智能、更交互式的多模态对话系统。
背景与挑战
背景概述
随着多模态人工智能技术的迅猛发展,视觉与语言理解的深度融合成为前沿研究的关键方向。LLaVA-Instruct-150K数据集由研究人员Haotian Liu及其团队于2023年4月构建,依托GPT-4-0314 API生成,旨在通过大规模视觉指令跟随数据,推动大型多模态模型向GPT-4级别的视觉语言能力演进。该数据集聚焦于视觉指令调优,为核心研究问题——如何使模型精准理解并执行跨模态指令——提供了重要资源,对计算机视觉、自然语言处理及人工智能交叉领域的研究产生了显著影响,促进了多模态智能助手与对话系统的进步。
当前挑战
在视觉问答与指令跟随领域,模型需克服跨模态语义对齐的复杂性,确保对图像内容与文本指令的协同理解,避免歧义与偏差。构建过程中,数据集依赖GPT-4生成数据,面临生成质量与多样性的平衡挑战,同时需遵循OpenAI使用政策,确保数据合规性与伦理安全。此外,大规模多模态数据的标注与验证成本高昂,对数据一致性与真实性的维护提出了更高要求,这些因素共同构成了数据集应用与扩展的核心难点。
常用场景
经典使用场景
在视觉-语言多模态研究领域,LLaVA-Instruct-150K数据集被广泛用于视觉指令调优任务。研究者利用该数据集训练大型多模态模型,使其能够理解和执行基于图像内容的复杂指令,例如描述图像细节、回答视觉相关问题或进行多轮对话。这一场景的核心在于模拟人类与智能系统之间的交互,推动模型在视觉与语言融合任务上的性能提升,为构建更智能的多模态助手奠定基础。
解决学术问题
该数据集有效解决了多模态学习中指令跟随能力不足的学术挑战。传统视觉问答数据集往往局限于单一问答形式,而LLaVA-Instruct-150K通过GPT-4生成的多样化指令数据,使模型学会处理开放域、多步骤的视觉语言任务。这不仅促进了视觉-语言对齐研究的发展,还为评估模型在复杂场景下的推理和泛化能力提供了标准基准,对推动通用人工智能的进展具有深远意义。
衍生相关工作
基于该数据集,学术界衍生了一系列经典研究工作,如LLaVA模型系列的迭代优化,以及后续的MiniGPT、VILA等多模态架构。这些工作进一步探索了指令调优对模型零样本泛化能力的影响,并推动了视觉语言预训练技术的创新。同时,该数据集也激发了更多高质量多模态指令数据的构建,形成了以指令驱动为核心的多模态研究范式,丰富了人工智能领域的生态体系。
以上内容由遇见数据集搜集并总结生成



