MAmmoTH-VL-12M

github2024-12-09 更新2024-12-10 收录

下载链接：

https://github.com/MAmmoTH-VL/MAmmoTH-VL

下载链接

链接失效反馈

官方服务：

资源简介：

MAmmoTH-VL-12M是一个大规模的多模态指令调优数据集，包含12M指令-响应对，旨在通过丰富的中间推理步骤来激发链式思维（CoT）推理。该数据集覆盖了多样化的、推理密集型任务，并提供了详细的、忠实的推理步骤。实验表明，使用该数据集训练的多模态大语言模型在推理能力上显著提升，达到了最新的性能水平。

MAmmoTH-VL-12M is a large-scale multimodal instruction-tuning dataset containing 12 million instruction-response pairs. It aims to elicit chain-of-thought (CoT) reasoning through rich intermediate inference steps. This dataset covers diverse, reasoning-intensive tasks and provides detailed and faithful inference procedures. Experiments demonstrate that multimodal large language models (LLMs) trained on this dataset achieve significantly improved reasoning capabilities and reach state-of-the-art performance levels.

创建时间：

2024-12-09

原始信息汇总

MAmmoTH-VL 数据集概述

数据集简介

MAmmoTH-VL 是一个大规模的多模态指令调优数据集，旨在通过丰富的中间推理步骤来激发链式推理（CoT）能力。该数据集包含 12M 条指令-响应对，覆盖了多样化的、推理密集型任务，并提供了详细的、忠实的推理步骤。

数据集结构

数据集的结构如下：

id: 数据样本的唯一标识符。
image: 图像文件的路径。
video: 视频文件的路径。
conversations: 一系列对话，包含“human”和“gpt”之间的对话。
- from: 标识说话者（“human”或“gpt”）。
- value: 消息内容，可能包含文本和图像引用。

数据集示例

以下是一个训练数据的示例： json { "id": "str", "image": "str/array", "video": "str", "conversations": [ { "from": "human", "value": "str" }, { "from": "gpt", "value": "str" } ] }

数据集下载

预训练数据集: 从 HuggingFace 下载 LLaVA-Pretrain 数据集。
微调数据集: 从 HuggingFace 下载 MAmmoTH-VL-12M 数据集。

数据集应用

预训练阶段: 使用 train/LLaVA-NeXT/scripts/train/mammoth_vl/pretrain_qwen_2_5.sh 脚本进行预训练。
微调阶段: 使用 train/LLaVA-NeXT/scripts/train/mammoth_vl/finetune_qwen_2_5_si.sh 和 train/LLaVA-NeXT/scripts/train/mammoth_vl/finetune_qwen_2_5_ov.sh 脚本进行微调。

数据集评估

使用 eval/lmms-eval/eval_mammoth_vl_example.sh 脚本进行模型评估。

搜集汇总

数据集介绍

构建方式

MAmmoTH-VL-12M数据集的构建基于一种可扩展且经济高效的方法，旨在创建一个大规模的多模态指令调优数据集。该数据集包含1200万条指令-响应对，覆盖了多样化的、推理密集型任务，并提供了详细的中间推理步骤。通过使用开放模型，数据集的构建过程包括重写和自我过滤等关键步骤，以确保数据的质量和推理的连贯性。实验表明，这种构建方法显著提升了多模态大语言模型（MLLMs）的推理能力。

特点

MAmmoTH-VL-12M数据集的主要特点在于其大规模和多样性。该数据集包含1200万条指令-响应对，涵盖了广泛的推理密集型任务，并提供了详细的中间推理步骤，有助于模型学习复杂的推理过程。此外，数据集的构建过程中采用了重写和自我过滤等技术，确保了数据的高质量和推理的连贯性。实验结果显示，使用该数据集训练的模型在多个基准测试中达到了最先进的性能。

使用方法

使用MAmmoTH-VL-12M数据集进行训练和评估的步骤如下：首先，克隆GitHub仓库并安装所需的依赖项。然后，下载预训练和微调所需的数据集。接下来，通过运行预训练脚本进行初始训练，随后进行微调。最后，使用评估脚本对模型的性能进行评估。数据集的格式包括唯一标识符、图像路径、视频路径和对话序列，便于理解和处理。

背景与挑战

背景概述

在多模态大语言模型（MLLMs）领域，尽管开源模型在多种任务中展现出显著潜力，但其推理能力仍受限于现有的指令调优数据集。这些数据集主要源自学术数据集，如VQA、AI2D和ChartQA，主要针对简单任务，且仅提供短语级答案，缺乏中间推理步骤。为应对这一挑战，MAmmoTH-VL项目于2024年由Jarvis Guo等人提出，旨在通过构建一个包含1200万指令-响应对的大规模多模态指令调优数据集，以促进推理能力的提升。该数据集不仅覆盖了多样化的推理密集型任务，还提供了详细的中间推理步骤，显著提升了模型在MathVerse、MMMU-Pro和MuirBench等基准测试中的表现，对多模态推理领域产生了深远影响。

当前挑战

MAmmoTH-VL数据集的构建面临多重挑战。首先，如何从现有学术数据集中提取并重构出适用于多模态推理任务的数据，是一个复杂的过程。其次，确保数据集中的指令-响应对能够有效引导模型进行深度推理，而非简单的任务执行，需要精细的设计和筛选机制。此外，数据集的规模和多样性要求高效的资源管理和成本控制，以确保在有限的计算资源下实现高质量的数据生成。最后，如何在保持数据集质量的同时，实现快速迭代和更新，以适应多模态推理领域的快速发展，也是一项重大挑战。

常用场景

经典使用场景

在多模态任务中，MAmmoTH-VL-12M数据集的经典使用场景主要体现在其对大规模指令调优的支持。该数据集通过包含1200万条指令-响应对，涵盖了多样化和推理密集型的任务，为多模态大语言模型（MLLMs）的训练提供了丰富的中间推理步骤。这种设计使得模型在处理复杂的多模态任务时，能够展现出更强的推理能力和更高的准确性。

衍生相关工作

MAmmoTH-VL-12M数据集的推出，催生了一系列相关研究和工作。例如，基于该数据集的训练模型在多个基准测试中取得了领先成绩，推动了多模态大语言模型的发展。此外，该数据集的构建方法，如重写和自过滤技术，也为其他多模态数据集的构建提供了新的思路和方法，进一步促进了多模态领域的研究进展。

数据集最近研究