five

liuhaotian/LLaVA-Instruct-150K

收藏
Hugging Face2024-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/liuhaotian/LLaVA-Instruct-150K
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 task_categories: - visual-question-answering - question-answering language: - en pretty_name: LLaVA Visual Instruct 150K size_categories: - 100K<n<1M --- # LLaVA Visual Instruct 150K Dataset Card ## Dataset details **Dataset type:** LLaVA Visual Instruct 150K is a set of GPT-generated multimodal instruction-following data. It is constructed for visual instruction tuning and for building large multimodal towards GPT-4 vision/language capability. **Dataset date:** LLaVA Visual Instruct 150K was collected in April 2023, by prompting GPT-4-0314 API. **Paper or resources for more information:** https://llava-vl.github.io/ **License:** Creative Commons Attribution 4.0 International; and it should abide by the policy of OpenAI: https://openai.com/policies/terms-of-use **Where to send questions or comments about the model:** https://github.com/haotian-liu/LLaVA/issues ## Intended use **Primary intended uses:** The primary use of LLaVA is research on large multimodal models and chatbots. **Primary intended users:** The primary intended users of the model are researchers and hobbyists in computer vision, natural language processing, machine learning, and artificial intelligence.

许可证:CC BY 4.0 任务类别: - 视觉问答(Visual Question Answering) - 问答(Question Answering) 语言: - 英语 展示名称:LLaVA视觉指令150K 规模区间:10万 < 样本数量 < 100万 # LLaVA视觉指令150K 数据集卡片 ## 数据集详情 **数据集类型:** LLaVA视觉指令150K是一组由GPT生成的多模态指令遵从数据集。其构建目的为支持视觉指令微调任务,以及研发具备GPT-4视觉与语言能力的大型多模态模型。 **数据集采集时间:** LLaVA视觉指令150K于2023年4月通过调用GPT-4-0314 API完成采集构建。 **更多信息参考资源:** https://llava-vl.github.io/ **许可证:** 本数据集采用知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International),同时需遵守OpenAI的使用政策:https://openai.com/policies/terms-of-use **数据集问题反馈渠道:** 如需针对该数据集提出疑问或反馈,可访问:https://github.com/haotian-liu/LLaVA/issues ## 预期用途 **主要用途:** 该数据集主要用于大型多模态模型与聊天机器人的相关研究。 **主要受众:** 本数据集的目标用户为计算机视觉、自然语言处理、机器学习及人工智能领域的研究人员与爱好者。
提供机构:
liuhaotian
原始信息汇总

LLaVA Visual Instruct 150K 数据集概述

数据集详情

数据集类型

  • 类型: GPT生成的多模态指令遵循数据集。
  • 目的: 用于视觉指令调优和构建大型多模态模型,以接近GPT-4的视觉/语言能力。

数据集日期

  • 收集时间: 2023年4月,通过GPT-4-0314 API生成。

许可证

  • 许可证: 创意共享署名4.0国际许可。
  • 遵守政策: 需遵守OpenAI的使用条款。

更多信息资源

预期用途

主要用途

  • 研究方向: 大型多模态模型和聊天机器人的研究。

主要用户

  • 目标用户: 计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉-语言多模态研究领域,高质量指令数据的构建是推动模型发展的关键。LLaVA Visual Instruct 150K数据集通过调用GPT-4-0314 API生成,旨在模拟人类与多模态系统间的复杂交互。其构建过程聚焦于视觉指令调优,利用大规模语言模型的强大生成能力,自动合成涵盖丰富视觉场景的问答对,从而为训练具备GPT-4级别视觉与语言能力的大型多模态模型提供结构化数据支撑。
特点
该数据集的核心特点在于其规模与生成质量,包含超过15万条由GPT-4生成的多样化多模态指令遵循数据。这些数据紧密融合图像内容与自然语言指令,覆盖广泛的视觉理解与推理任务,为模型提供了近似人类专家水平的监督信号。数据格式统一且标注一致,有效促进了多模态模型在指令遵循、对话交互及跨模态对齐等方面的能力提升,成为视觉-语言研究中的重要基准资源。
使用方法
研究人员可将该数据集直接应用于视觉指令调优阶段,以增强多模态模型的指令理解与响应生成能力。典型使用流程包括加载图像与对应文本指令,输入到预训练的多模态架构中进行端到端训练。通过微调,模型能够学习将视觉信息与语言指令相结合,实现更精准的视觉问答、场景描述及复杂推理。该数据集适用于学术探索与实验验证,助力构建更智能、更交互式的多模态对话系统。
背景与挑战
背景概述
随着多模态人工智能技术的迅猛发展,视觉与语言理解的深度融合成为前沿研究的关键方向。LLaVA-Instruct-150K数据集由研究人员Haotian Liu及其团队于2023年4月构建,依托GPT-4-0314 API生成,旨在通过大规模视觉指令跟随数据,推动大型多模态模型向GPT-4级别的视觉语言能力演进。该数据集聚焦于视觉指令调优,为核心研究问题——如何使模型精准理解并执行跨模态指令——提供了重要资源,对计算机视觉、自然语言处理及人工智能交叉领域的研究产生了显著影响,促进了多模态智能助手与对话系统的进步。
当前挑战
在视觉问答与指令跟随领域,模型需克服跨模态语义对齐的复杂性,确保对图像内容与文本指令的协同理解,避免歧义与偏差。构建过程中,数据集依赖GPT-4生成数据,面临生成质量与多样性的平衡挑战,同时需遵循OpenAI使用政策,确保数据合规性与伦理安全。此外,大规模多模态数据的标注与验证成本高昂,对数据一致性与真实性的维护提出了更高要求,这些因素共同构成了数据集应用与扩展的核心难点。
常用场景
经典使用场景
在视觉-语言多模态研究领域,LLaVA-Instruct-150K数据集被广泛用于视觉指令调优任务。研究者利用该数据集训练大型多模态模型,使其能够理解和执行基于图像内容的复杂指令,例如描述图像细节、回答视觉相关问题或进行多轮对话。这一场景的核心在于模拟人类与智能系统之间的交互,推动模型在视觉与语言融合任务上的性能提升,为构建更智能的多模态助手奠定基础。
解决学术问题
该数据集有效解决了多模态学习中指令跟随能力不足的学术挑战。传统视觉问答数据集往往局限于单一问答形式,而LLaVA-Instruct-150K通过GPT-4生成的多样化指令数据,使模型学会处理开放域、多步骤的视觉语言任务。这不仅促进了视觉-语言对齐研究的发展,还为评估模型在复杂场景下的推理和泛化能力提供了标准基准,对推动通用人工智能的进展具有深远意义。
衍生相关工作
基于该数据集,学术界衍生了一系列经典研究工作,如LLaVA模型系列的迭代优化,以及后续的MiniGPT、VILA等多模态架构。这些工作进一步探索了指令调优对模型零样本泛化能力的影响,并推动了视觉语言预训练技术的创新。同时,该数据集也激发了更多高质量多模态指令数据的构建,形成了以指令驱动为核心的多模态研究范式,丰富了人工智能领域的生态体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作