MMDU

github2024-06-13 更新2024-06-14 收录

下载链接：

https://github.com/Liuziyu77/MMDU

下载链接

链接失效反馈

官方服务：

资源简介：

MMDU是一个全面的基准和MMDU-45k是一个大规模的指令调整数据集，旨在评估和提高LVLMs在多轮和多图像对话中的能力。

MMDU is a comprehensive benchmark, and MMDU-45k is a large-scale instruction tuning dataset designed to evaluate and enhance the capabilities of LVLMs (Large Vision-Language Models) in multi-turn and multi-image dialogues.

创建时间：

2024-06-09

原始信息汇总

数据集概述

数据集名称

MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

数据集目的

评估和提升Large Vision-Language Models (LVLMs)在多轮多图像对话中的能力。

数据集特点

多轮多图像: 展示最多20张图像和17轮对话的会话设置，真实复制现实世界聊天助手交互。
长上下文: 最大18k文本+图像令牌，评估LVLMs处理和理解长上下文信息的能力。
开放式评估: 通过自由形式的多轮输出评估LVLM性能，注重可扩展性和可解释性。

数据集构成

MMDU Benchmark: 包含110个高质量的多图像多轮对话，超过1600个问题，每个问题伴随详细的长形式答案。
MMDU-45k Instruct Tuning Dataset: 构建了45k指令调整数据对话，每个数据具有超长上下文，平均图像&文本令牌长度为5k，最大为17k令牌。

数据集应用

通过MMDU-45k微调的模型在多图像识别和长文本对话能力上显示出显著改进。

数据集使用方法

生成答案: 修改模型推理代码以支持多图像和多轮对话，使用提供的测试脚本。
评判: 使用提供的脚本对模型响应进行评分，结果保存为JSON文件。

数据集许可

代码许可: Apache 2.0
数据许可: CC By NC 4.0
仅限研究使用。

搜集汇总

数据集介绍

构建方式

MMDU数据集的构建基于对多轮多图像对话理解的需求，通过精心设计的数据生成流程，构建了包含45,000条指令调优对话的MMDU-45k数据集。每条对话数据包含超长上下文，平均图像与文本令牌长度为5k，最大长度达到17k令牌。对话平均包含9轮问答，最多可达27轮，且每条数据涉及2至5张图像。此数据集通过组合扩展，可生成更多、更长的多图像、多轮对话，显著超越现有指令调优数据集的图像文本长度和轮次数量。

特点

MMDU数据集的显著特点在于其多轮多图像对话设置，最大支持20张图像和17轮对话，真实模拟现实世界中的聊天助手交互。此外，数据集包含长达18k的文本与图像令牌，评估模型处理和理解长上下文信息的能力。与传统封闭式问题和简短输出不同，MMDU采用开放式评估，通过自由形式的多轮输出，强调可扩展性和可解释性。

使用方法

使用MMDU数据集进行模型微调时，首先需修改模型推理代码以支持多图像和多轮对话。测试脚本位于`./model/generation`文件夹中，用户需修改模型权重路径和MMDU `benchmark.json`文件路径。测试结果将保存为单独的JSON文件。评分阶段，使用`./scores/prompt.py`脚本对模型响应进行评分，需提供OpenAI API密钥和文件路径。最终评分结果将保存为单独的JSON文件，并通过`./scripts/statistic.py`脚本获取各方面的评分、总体评分和问题数量。

背景与挑战

背景概述

在多模态人机交互领域，大型视觉语言模型（LVLMs）的核心能力之一是生成自然且有意义的响应以应对多模态输入。尽管当前的开源LVLMs在单一图像输入的简化场景中表现出色，但在真实世界的对话场景中，如在多轮次和多图像的复杂背景下遵循指令，这些模型仍显不足。现有的LVLM基准主要集中在单选题或简短回答上，未能充分评估LVLMs在实际人机交互应用中的能力。为此，MMDU数据集应运而生，它由Ziyu Liu、Tao Chu等研究人员于2024年创建，旨在通过MMDU-45k大规模指令调优数据集，评估和提升LVLMs在多轮次和多图像对话中的能力，对推动多模态对话系统的发展具有重要意义。

当前挑战

MMDU数据集在构建过程中面临多项挑战。首先，如何在多图像和多轮次的对话环境中保持对话的自然性和连贯性是一个主要难题。其次，数据集的构建需要处理超长的上下文信息，平均图像和文本令牌长度达到5k，最大长度达到17k令牌，这对模型的处理能力提出了极高要求。此外，MMDU数据集采用了开放式评估方法，相较于传统的封闭式问题，这种评估方式更加复杂和细致，要求模型具备更高的解释性和可扩展性。最后，数据集的实际应用中，模型的对话质量和图像识别能力在处理大量图像和长上下文时显著下降，这也是当前多模态大模型面临的重要挑战。

常用场景

经典使用场景

在多模态对话理解领域，MMDU数据集以其独特的多轮多图像对话结构，成为评估和提升大型视觉语言模型（LVLMs）能力的重要工具。该数据集通过模拟真实世界中的对话场景，要求模型在处理多达20张图像和17轮对话的复杂环境中生成自然且有意义的响应。这种设置不仅超越了以往单图像或少量图像的简化场景，还真实地再现了人类与AI助手之间的互动情境。

实际应用

在实际应用中，MMDU数据集为开发更智能的AI助手和多模态对话系统提供了宝贵的资源。通过训练和评估模型在多图像和多轮对话中的表现，MMDU帮助提升了AI在教育、医疗、客户服务等领域的交互质量。例如，在教育领域，AI助手可以通过理解学生的多轮提问和提供相关图像来增强教学效果；在医疗领域，AI可以辅助医生进行复杂的病例讨论和诊断。

衍生相关工作

MMDU数据集的推出激发了大量相关研究工作，特别是在多模态对话系统和视觉语言模型的改进方面。许多研究者利用MMDU进行模型微调，显著提升了模型在多图像识别和长文本对话处理中的性能。此外，MMDU还促进了开源评估工具如VLMEvalKit的发展，为大规模视觉语言模型的评估提供了便利。这些衍生工作不仅扩展了MMDU的应用范围，还推动了整个领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集