MMEvol

Hugging Face2024-11-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Tongyi-ConvAI/MMEvol

下载链接

链接失效反馈

官方服务：

资源简介：

MMEvol数据集是为多模态大语言模型（MLLMs）进行监督微调而生成的一个数据集。它通过一个迭代过程，结合细粒度感知、认知推理和交互进化，增强了数据质量，生成了更复杂和多样化的图像-文本指令数据集。数据集包括三个进化方向：细粒度感知进化、认知推理进化和交互进化。数据集的种子数据为163K，经过多轮进化后，生成了高质量的指令数据。数据集适用于问题回答和视觉问题回答任务，支持中英文。

创建时间：

2024-11-06

原始信息汇总

MMEvol 数据集概述

基本信息

许可证: Apache 2.0
任务类别:
- 问答
- 视觉问答
语言:
- 英语
- 中文
数据规模: 100K < n < 1M

数据集来源

数据集名称: MMEvol
数据集生成: 由 Tongyi-ConvAI 生成，用于多模态监督微调。
相关论文:
- 论文标题: "MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct"
- 论文链接: https://arxiv.org/pdf/2409.05840
- 网站链接: https://mmevol.github.io/home_page.html

数据集统计

种子数据:
- 种子指令微调数据集: 163K
- 数据增强过程: 通过细粒度感知、认知推理和交互进化的迭代过程，生成更复杂和多样化的图像-文本指令数据集。

数据集进化方向

细粒度感知进化: 生成包含更多详细视觉信息的样本，增强数据多样性。
认知推理进化: 自动生成各种非预定义的指令格式，显著增强数据多样性。
交互进化: 赋予指令数据更长的视觉推理链，增加数据复杂性。

数据使用

数据文件:
- 主要数据文件: mm_evol_480k.json
- 其他自定义训练文件: 参考 jsons 文件夹。
存储要求: 确保有足够的存储空间下载和处理数据。

搜集汇总

数据集介绍

构建方式

MMEvol数据集的构建过程始于163K的种子指令调优数据集，通过精细的感知、认知推理和交互进化的迭代过程，逐步提升数据质量。这一过程不仅扩展了指令类型的多样性，还通过增加视觉推理步骤和深入挖掘图像细节，生成了更为复杂和多样化的图像-文本指令数据集。最终，数据集通过三种指令进化方向（细粒度感知进化、交互进化和认知推理进化）进一步优化，确保了数据的高质量和多样性。

特点

MMEvol数据集的特点在于其通过多轮进化生成的复杂性和多样性。数据集不仅包含了丰富的细粒度视觉信息，还通过交互进化生成了多种非预定义的指令格式，显著提升了数据的多样性。此外，认知推理进化为指令数据赋予了更长的视觉推理链，进一步增加了数据的复杂性。这些特点使得MMEvol数据集在训练多模态大语言模型时，能够有效提升模型的感知、推理和交互能力。

使用方法

使用MMEvol数据集时，首先需要确保有足够的存储空间来下载和处理数据。数据集的核心文件为mix_evol_sft.json，其中包含了基于进化策略生成的高质量指令数据以及部分开源指令数据。用户可以直接使用该文件进行模型训练，或根据需要选择单独的数据文件（如mix_evol_480k.json）进行特定任务的训练。通过合理利用这些数据，用户可以显著提升多模态大语言模型的性能。

背景与挑战

背景概述

MMEvol数据集由Tongyi-ConvAI团队于2024年创建，旨在为多模态大语言模型（MLLMs）提供高质量的监督微调数据。该数据集的核心研究问题在于如何通过迭代进化策略提升图像-文本指令数据的多样性和复杂性，从而增强模型在细粒度感知、认知推理和交互进化等方面的能力。MMEvol的构建基于163K种子指令数据集，通过精细的感知进化、交互进化和认知推理进化三个方向，生成了480K的高质量指令数据。该数据集在推动多模态大语言模型的发展方面具有重要影响力，特别是在提升模型的视觉理解和推理能力方面。

当前挑战

MMEvol数据集在构建过程中面临多重挑战。首先，如何确保指令数据的多样性和复杂性是一个核心问题，需要通过精细的感知进化和交互进化策略来生成高质量的数据。其次，认知推理进化的实现要求模型能够处理更长的视觉推理链，这对数据的标注和生成提出了更高的要求。此外，数据集的构建依赖于开源多模态数据集，如何有效整合和利用这些外部资源也是一个技术难点。最后，数据集的规模较大，存储和处理需求较高，这对计算资源和存储空间提出了挑战。

常用场景

经典使用场景

MMEvol数据集在多模态大语言模型的训练中扮演了关键角色，特别是在视觉问答和问题回答任务中。通过其独特的进化指令策略，该数据集能够生成复杂且多样化的图像-文本指令，从而提升模型在视觉理解和认知推理方面的能力。

解决学术问题

MMEvol数据集解决了多模态大语言模型在视觉问答和认知推理任务中的关键挑战。通过细粒度感知、交互进化和认知推理进化三个方向的指令进化，该数据集显著提升了模型在处理复杂视觉信息和长推理链任务中的表现，为相关领域的研究提供了强有力的数据支持。

衍生相关工作

MMEvol数据集衍生了一系列经典研究工作，特别是在多模态大语言模型的训练和优化方面。基于该数据集的研究成果已在多个顶级学术会议和期刊上发表，推动了多模态人工智能领域的发展，并为后续研究提供了丰富的实验数据和理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集