LAMM
收藏魔搭社区2026-05-11 更新2024-06-01 收录
下载链接:
https://modelscope.cn/datasets/Shanghai_AI_Laboratory/LAMM
下载链接
链接失效反馈官方服务:
资源简介:
#### 下载方法
:modelscope-code[]{type="git"}
:modelscope-code[]{type="sdk"}
#### 简介
LAMM-Dataset 包括一个包含 186,098 个图像语言指令-响应对的图像指令调整数据集和一个包含 10,262 个点云语言指令-响应对的点云指令调整数据集。 我们从公开可用的数据集中收集图像和点云,并使用 GPT API 和自我指导方法根据这些数据集中的原始标签生成指令和响应。 生成的 LAMM 数据集具有三个吸引人的属性:
1. 现有的多模态指令调优数据集主要关注整体和粗略的信息。 为了强调细粒度和密集信息,我们添加了更多视觉信息,例如视觉关系和细粒度类别作为 GPT API 的输入。
2. 我们观察到现有的 MLLM 可能难以理解视觉任务指令。 为了解决这个问题,我们设计了一种将视觉任务注释转换为指令-响应对的方法,从而增强了 MLLM 对视觉任务指令的理解和泛化。
3. LAMM-Dataset 还包括用于常识性知识问答的数据对,方法是结合来自 Bamboo 数据集的分层知识图标签系统和相应的维基百科描述。
#### Download Method
:modelscope-code[]{type="git"}
:modelscope-code[]{type="sdk"}
#### Introduction
The LAMM-Dataset consists of an image instruction tuning dataset containing 186,098 image-language instruction-response pairs and a point cloud instruction tuning dataset containing 10,262 point cloud-language instruction-response pairs. We collect images and point clouds from publicly available datasets, and use the GPT API and self-instruct methods to generate instructions and responses based on the original labels in these datasets. The generated LAMM-Dataset has three appealing properties:
1. Existing multimodal instruction tuning datasets mainly focus on holistic and coarse-grained information. To emphasize fine-grained and dense visual information, we add more visual details such as visual relationships and fine-grained categories as inputs to the GPT API.
2. We observe that existing MLLMs may have difficulty understanding visual task instructions. To address this issue, we design a method to convert visual task annotations into instruction-response pairs, thereby enhancing MLLMs' understanding and generalization of visual task instructions.
3. The LAMM-Dataset also includes data pairs for common-sense knowledge QA, which is developed by combining the hierarchical knowledge graph labeling system from the Bamboo dataset and the corresponding Wikipedia descriptions.
提供机构:
maas
创建时间:
2024-05-28



