LAMM
收藏arXiv2023-11-06 更新2024-06-21 收录
下载链接:
https://openlamm.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
LAMM数据集是由上海人工智能实验室开发的多模态指令调优数据集,旨在通过语言辅助提升多模态大语言模型(MLLMs)在视觉任务上的表现。该数据集包含丰富的视觉任务数据,如2D和3D视觉任务,以及高质量的指令和响应。通过使用GPT-API生成指令和响应,数据集强调了细粒度信息和事实知识,增强了MLLMs对视觉任务指令的理解和泛化能力。LAMM数据集的应用领域广泛,包括图像和点云处理,旨在解决多模态交互中的理解和执行差距,促进人机无缝交互。
The LAMM dataset is a multimodal instruction-tuning dataset developed by the Shanghai AI Laboratory, aiming to enhance the performance of multimodal large language models (MLLMs) on visual tasks via language assistance. This dataset includes rich visual task data, such as 2D and 3D visual tasks, as well as high-quality instruction-response pairs. It generates instructions and responses using the GPT-API, emphasizing fine-grained information and factual knowledge to improve MLLMs' understanding and generalization capabilities for visual task instructions. The LAMM dataset has broad application fields, covering image and point cloud processing, and aims to address the understanding-execution gap in multimodal interactions and promote seamless human-computer interaction.
提供机构:
上海人工智能实验室
创建时间:
2023-06-11
搜集汇总
数据集介绍

构建方式
在构建LAMM数据集的过程中,研究团队采用了一种创新的多模态指令调优数据生成方法。该方法基于公开可用的图像与点云数据集,通过精心设计的系统提示、上下文学习对和查询指令,利用GPT-API结合自指令技术生成高质量的指令-响应对。具体而言,对于图像数据,团队从COCO等数据集中提取图像,并融合Visual Genome中的物体属性和关系等细粒度视觉信息作为GPT-API的输入上下文,以生成涵盖日常对话、详细描述、事实知识问答等多种类型的对话数据。对于点云数据,则利用3RScan等数据集,并通过转换CLEVR3D的视觉问答标注为陈述句来生成描述。此外,团队还创新性地将传统视觉任务(如分类、检测、OCR等)的标注转换为指令-响应对,通过生成任务特定的指令和响应模板池,并将真实标注插入其中,从而构建了能够增强模型对视觉任务指令理解与泛化能力的数据。整个构建过程强调数据的多样性、细粒度信息以及事实知识的融入,并通过人工抽样检查确保了数据质量。
特点
LAMM数据集作为首批开源的多模态大语言模型指令调优数据集,展现出若干显著特点。其核心在于覆盖了二维图像与三维点云两种视觉模态,共计包含超过186,000个图像-语言对以及约10,000个点云-语言对,实现了多模态任务的广泛涵盖。数据集内容设计精巧,划分为四大类别:多轮日常对话、多轮事实知识对话、单轮详细描述以及单轮视觉任务对话。这种分类体系不仅促进了模型在开放域对话中的能力,还特别强调了细粒度视觉信息理解和事实知识推理。尤为突出的是,数据集创新性地将传统计算机视觉任务(如目标检测、关键点检测、光学字符识别、物体计数等)的标注转化为自然语言指令-响应对,这有效增强了模型对结构化视觉任务指令的理解与执行泛化能力。此外,数据构建过程中融入了来自Bamboo数据集和维基百科的层次化知识图谱标签,旨在缓解大语言模型在事实知识上可能产生的幻觉问题,提升了响应的准确性与可靠性。
使用方法
LAMM数据集主要用于训练和评估多模态大语言模型。在使用时,研究人员可遵循其配套框架,将不同模态的数据(图像或点云)通过预训练的编码器(如CLIP ViT用于图像,FrozenCLIP用于点云)转换为视觉特征,再通过可训练的投影层映射到与文本嵌入相同的特征空间。文本指令则通过SentencePiece分词器进行标记化。视觉标记与文本标记拼接后,输入到共享的大语言模型(如Vicuna-13B)中进行处理。为高效微调,框架为不同模态引入了独立的低秩适应参数,并在训练时仅优化投影层和LoRA参数。该框架设计支持灵活的模态扩展。数据集可直接用于模型的指令调优训练,以提升模型遵循多模态指令、进行细粒度视觉理解和知识推理的能力。同时,数据集与配套的基准测试协同使用,用户可在涵盖多种二维和三维视觉任务的基准上,以零样本或微调设置评估模型性能,利用传统指标、二值定位指标和GPT指标进行全面衡量,从而系统分析模型的能力与局限。
背景与挑战
背景概述
随着大语言模型在通用人工智能代理领域展现出巨大潜力,多模态大语言模型的研究逐渐成为学术焦点。然而,现有如GPT-4V等多模态模型缺乏开源透明度,制约了学术界的深入探索。在此背景下,上海人工智能实验室联合北京航空航天大学、悉尼大学等机构的研究团队于2023年推出了LAMM数据集,旨在构建一个开源的多模态指令微调生态系统。该数据集聚焦于解决视觉与语言模态的协同理解问题,通过整合二维图像与三维点云数据,为训练和评估多模态大语言模型提供了重要基础。其创新性在于首次系统性地将传统计算机视觉任务转化为自然语言指令格式,推动了多模态人工智能代理从概念到执行的能力跨越,对计算机视觉与自然语言处理的交叉领域产生了深远影响。
当前挑战
LAMM数据集致力于解决多模态大语言模型在视觉任务中的指令理解与执行挑战,具体包括开放词汇分类、目标检测、视觉问答等复杂场景的泛化能力问题。在构建过程中,研究团队面临多重挑战:首先是如何将离散的视觉任务标注(如边界框坐标、关键点位置)转化为连贯的自然语言指令-响应对,这需要设计精细的提示工程与模板生成机制;其次是处理不同模态数据的异构性,特别是三维点云数据缺乏丰富的语义标注,需通过场景图与视觉问答数据合成描述性文本;此外,确保生成数据的质量与多样性也是一大难点,需通过人工抽样检查来过滤GPT-API可能产生的幻觉响应或格式错误,以维持数据集的可靠性与学术价值。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,LAMM数据集为多模态大语言模型的指令微调提供了关键支撑。该数据集通过整合图像与点云数据,构建了涵盖日常对话、事实知识推理、详细描述及视觉任务对话的多样化指令-响应对,为模型理解复杂视觉场景并生成准确语言响应奠定了坚实基础。其经典应用场景在于训练模型执行细粒度视觉理解任务,例如在开放词汇分类中识别特定物体类别,或在视觉问答中依据图像内容进行多轮推理对话,有效弥合了视觉感知与语言生成之间的语义鸿沟。
解决学术问题
LAMM数据集致力于解决多模态大语言模型研究中长期存在的开放性问题,特别是缺乏高质量、可扩展的指令微调数据资源。该数据集通过系统化构建涵盖二维与三维视觉任务的指令样本,显著提升了模型在零样本场景下的泛化能力与任务适应性。其核心学术价值在于为视觉定位、物体计数、关键点检测等传统计算机视觉任务提供了自然语言交互的新范式,同时通过引入事实知识对话与细粒度视觉描述,有效缓解了模型在复杂推理与细节感知方面的局限性,推动了多模态人工智能向更通用、更鲁棒的方向演进。
衍生相关工作
LAMM数据集的发布催生了多模态大语言模型研究的一系列延伸工作。以该数据集为基础,后续研究聚焦于扩展模态覆盖范围,例如将视频时序理解与音频语义分析纳入指令微调框架。同时,衍生工作深入探索了模型架构优化,如开发动态投影机制以适配异构视觉特征,或设计分层注意力网络提升跨模态对齐精度。在评估体系方面,受LAMM基准启发,学术界提出了更稳健的多模态评估指标,包括基于视觉定位一致性的几何评分方法,以及融合常识推理的生成质量综合评价标准,共同推动了开放生态下多模态智能体的持续演进。
以上内容由遇见数据集搜集并总结生成



