MMInstruct
收藏arXiv2024-07-23 更新2024-07-24 收录
下载链接:
https://github.com/yuecao0119/MMInstruct
下载链接
链接失效反馈官方服务:
资源简介:
MMInstruct数据集由上海人工智能实验室等机构创建,包含973K条高质量、多样化的视觉指令数据,涵盖24个日常生活中的任务领域。数据集通过结合GPT-4V和GPT-3.5以及人工校正,实现了半自动、低成本的指令生成。该数据集主要用于提升视觉大型语言模型(VLLMs)的性能,特别是在多模态指令调优方面,旨在解决现有数据集在图像多样性、标注质量和指令多样性方面的不足。
MMInstruct dataset was created by Shanghai AI Laboratory and other institutions. It contains 973K high-quality and diverse visual instruction data covering 24 daily task domains. By leveraging GPT-4V, GPT-3.5 and human post-correction, it enables semi-automatic and low-cost instruction generation. This dataset is primarily intended to enhance the performance of visual large language models (VLLMs), particularly in multimodal instruction tuning, and aims to address the shortcomings of existing datasets in terms of image diversity, annotation quality and instruction diversity.
提供机构:
上海人工智能实验室
创建时间:
2024-07-23
原始信息汇总
MMInstruct
数据集概述
- 名称:MMInstruct
- 来源:论文 "MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity"
- 状态:即将发布
示例
- 包含一个示例图像,路径为
figs/example_in_domain.png
搜集汇总
数据集介绍

构建方式
MMInstruct数据集的构建过程首先涉及图像收集,通过定义关键词并利用网络爬虫和相似性搜索收集大量高质量图像。接着,利用GPT-4V生成详细的图像描述,然后由专家收集和验证种子问题。基于图像描述和种子问题,GPT-3.5自动生成指令数据。此外,还通过生成多轮长视觉问答数据和其他开源数据集来扩展数据集。最后,通过人工校对确保数据质量和准确性。
特点
MMInstruct数据集的特点包括:1)包含来自24个领域的973K条指令;2)指令类型多样,包括判断、多选、长视觉问答和短视觉问答;3)图像描述详细且具有领域特异性;4)指令生成过程中使用GPT-4V和GPT-3.5,以及人工校对,确保数据质量和多样性。
使用方法
使用MMInstruct数据集时,首先需要将数据集与视觉语言模型结合,进行指令微调。具体步骤包括:1)使用LSC-558K预训练数据集训练MLP投影;2)结合LLaVA-665K指令数据集和MMInstruct数据集进行微调。在微调阶段,保持视觉编码器不变,并使用MMInstruct数据集进行训练。
背景与挑战
背景概述
视觉语言模型(VLLMs)在理解视觉信息方面展现出强大的能力,但在执行视觉语言任务时,现有的视觉指令调优数据集存在局限性。MMInstruct数据集由上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦大学、香港中文大学、上海交通大学的研究人员合作构建,旨在解决现有数据集在指令标注质量、指令和图像多样性方面的不足。该数据集包含来自24个领域的973K条指令,涵盖了判断、多选题、长视觉问答和短视觉问答四种类型。MMInstruct的构建采用了一种半自动、低成本的数据引擎,利用GPT-4V、GPT-3.5和人工校正,能够在保证数据质量的同时,以1/6的人工构建成本实现多领域指令的生成。通过广泛的实验验证,MMInstruct显著提升了VLLMs的性能,例如在12个基准测试中有10个达到了新的最先进水平。
当前挑战
MMInstruct数据集面临的主要挑战包括:1)指令标注质量:尽管现有的VLLMs表现出强大的性能,但由这些先进VLLMs生成的指令可能仍然存在不准确的问题,例如幻觉。2)指令和图像多样性:指令类型的范围有限以及图像数据的多样性不足可能会影响模型生成多样化且接近现实世界场景的输出的能力。3)构建过程中的挑战:为了确保数据集的通用性和多样性,研究人员设计了24个日常生活中的常见任务领域,并提出了一个半自动、低成本的数据引擎来生成指令。数据引擎的成本是人工构建成本的1/6,同时保证了数据质量和多样性。
常用场景
经典使用场景
MMInstruct数据集在视觉语言模型的指令微调阶段被广泛使用,旨在提升模型对视觉信息的理解和处理能力。通过该数据集的多样化指令和丰富的视觉内容,模型能够在多个领域(如图像风格、场景、质量、属性识别等)进行学习和优化。例如,模型可以通过对图像的详细描述和问题进行学习,以更好地理解图像中的对象、关系和场景,从而在视觉问答、图像描述等任务中取得更好的性能。
实际应用
MMInstruct数据集在实际应用场景中具有广泛的应用价值。例如,在图像搜索和推荐系统中,模型可以利用该数据集进行训练,从而更好地理解用户搜索意图,提供更准确的搜索结果和个性化推荐。在自动驾驶领域,模型可以通过学习MMInstruct中的指令和数据,提高对道路场景的理解和预测能力,从而提升自动驾驶系统的安全性和可靠性。此外,MMInstruct数据集还可以应用于智能客服、智能医疗诊断等领域,提升模型的交互能力和决策能力。
衍生相关工作
基于MMInstruct数据集,已经衍生出一些相关的研究工作。例如,一些研究者利用该数据集对视觉语言模型进行微调,在图像描述、视觉问答等任务中取得了显著的性能提升。此外,一些研究者还利用MMInstruct数据集构建了多轮对话模型,用于模拟真实场景下的对话交互。这些研究工作不仅验证了MMInstruct数据集的有效性,还为视觉语言模型的研究和应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



