MMDU

Name: MMDU
Creator: 上海人工智能实验室
Published: 2024-06-18 01:59:47
License: 暂无描述

arXiv2024-06-18 更新2024-06-19 收录

下载链接：

https://github.com/Liuziyu77/MMDU

下载链接

链接失效反馈

官方服务：

资源简介：

MMDU是一个专为评估和提升大型视觉语言模型（LVLMs）在多轮多图像对话理解能力而设计的综合基准和大规模指令调优数据集。该数据集由上海人工智能实验室创建，包含45,000条高质量数据，旨在通过模拟真实世界的人机交互场景，测试和改进模型在处理多图像和长对话历史中的表现。数据集通过使用聚类算法从开放源代码的维基百科中提取相关图像和文本描述，并由人工注释者借助GPT-4o模型构建问答对。MMDU不仅挑战了现有LVLMs的处理能力，还通过其开放式的评估方式，推动了模型在理解和生成自然、有意义对话方面的进步。

MMDU is a comprehensive benchmark and large-scale instruction-tuning dataset specifically designed to evaluate and enhance the multi-turn, multi-image dialogue understanding capabilities of Large Vision-Language Models (LVLMs). Developed by the Shanghai AI Laboratory, this dataset contains 45,000 high-quality samples. It aims to test and improve models' performance in handling multiple images and long conversation histories by simulating real-world human-computer interaction scenarios. The dataset extracts relevant images and textual descriptions from open-source Wikipedia using clustering algorithms, and human annotators construct question-answer pairs with the assistance of GPT-4o. MMDU not only challenges the processing capabilities of existing LVLMs but also promotes the advancement of models in understanding and generating natural, meaningful dialogues through its open-ended evaluation approach.

提供机构：

上海人工智能实验室

创建时间：

2024-06-18

搜集汇总

数据集介绍

构建方式

MMDU数据集的构建方式体现了对多模态对话理解能力的全面考量。该数据集通过聚类算法从开源的维基百科中筛选出相关的图像和文本描述，并由人工标注者在GPT-4o模型的辅助下构建问题-答案对。MMDU数据集包含多达18k的图像+文本标记，最多20张图像和27轮对话，其长度至少是先前基准的5倍，为当前的大型视觉-语言模型（LVLMs）提出了挑战。

特点

MMDU数据集的显著特点包括：1）多轮和多图像对话：数据集模拟了真实世界中的对话助手交互，最多包含20张图像和17轮对话，超越了以往的工作。2）长上下文：数据集最大包含18k的文本+图像标记，评估LVLMs处理和理解扩展上下文信息的能力。3）开放式评估：不同于依赖封闭式问题和简短输出的传统基准，MMDU采用更现实和细致的方法，通过自由形式的多轮输出来评估LVLMs的性能，强调可扩展性和可解释性。

使用方法

MMDU数据集主要用于评估和提升LVLMs在多轮和多图像对话中的理解能力。研究者可以通过该数据集对模型进行基准测试，分析其在处理复杂对话场景中的表现。此外，MMDU-45k数据集可用于模型的指令微调，通过在监督微调（SFT）阶段加入MMDU-45k数据，显著提升模型在MMDU及其他现有基准上的性能，生成更长、更准确的对话，并提高在MMDU和现有基准上的得分。

背景与挑战

背景概述

MMDU数据集由上海人工智能实验室的研究团队开发，旨在评估和提升大型视觉语言模型（LVLMs）在多轮多图像对话中的理解能力。该数据集的构建始于2024年，通过从开放源代码的维基百科中选择相关图像和文本描述，并利用GPT-4o模型生成多轮问题。MMDU数据集包含多达18k的图像+文本标记，20张图像和27轮对话，比之前的基准至少长5倍，对当前的LVLMs提出了挑战。该数据集的引入填补了现有LVLM基准在真实世界人机交互应用中的不足，推动了LVLMs在多轮多图像对话中的能力提升。

当前挑战

MMDU数据集面临的挑战主要在于其构建过程中对多轮多图像对话的高要求。首先，解决领域问题的挑战在于如何有效地评估和提升LVLMs在复杂对话场景中的表现，特别是在长上下文历史和多图像输入的情况下。其次，构建过程中遇到的挑战包括如何从维基百科中筛选出高质量的图像和文本描述，以及如何通过GPT-4o模型生成符合实际对话需求的多轮问题。此外，数据集的质量控制和人工标注的准确性也是构建过程中需要克服的难题。

常用场景

经典使用场景

MMDU数据集的经典使用场景在于评估和提升大型视觉-语言模型（LVLMs）在多轮多图像对话理解中的能力。通过提供包含多图像和多轮对话的复杂场景，MMDU数据集能够测试模型在处理长上下文历史和遵循复杂指令方面的表现。

衍生相关工作

MMDU数据集的发布催生了一系列相关研究工作，包括对现有LVLM模型的改进和优化，以及开发新的多模态对话系统。研究者们利用MMDU数据集进行模型微调，显著提升了模型在多轮多图像对话中的表现，并推动了多模态学习领域的技术进步。

数据集最近研究