MMDU

Hugging Face2024-06-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/laolao77/MMDU

下载链接

链接失效反馈

官方服务：

资源简介：

MMDU Benchmark是一个用于评估模型多图像多轮对话能力的基准，包含110个高质量对话，每个对话涉及2至20张图像，平均图像和文本令牌长度为8.2k，最大可达18k。MMDU-45k Instruct Tuning Dataset是一个包含45,000个对话的数据集，每个对话具有超长上下文，平均图像和文本令牌长度为5k，最大可达17k，每个对话平均包含9轮Q&A，最多可达27轮，涉及2至5张图像。

创建时间：

2024-06-09

原始信息汇总

MMDU 数据集概述

数据集许可

许可协议：CC BY-NC 4.0

任务类别

视觉问答
问答

语言

英语

数据集名称

名称：MMDU Dataset Card

配置

配置名称：MMDU
数据文件：benchmark.json

MMDU 基准

包含 110 个高质量多图像多轮对话，超过 1600 个问题，每个问题都有详细的较长答案。
每个对话涉及 2 到 20 张图像，平均图像和文本令牌长度为 8.2k 令牌，最大图像和文本长度达到 18K 令牌。

MMDU-45k 指令调优数据集

包含 45k 指令调优数据对话。
每个数据对话具有超长上下文，平均图像和文本令牌长度为 5k，最大图像和文本令牌长度为 17k 令牌。
每个对话平均包含 9 轮问答，最多 27 轮。
每个数据包含 2-5 张图像。
图像和文本长度以及问答轮数显著超过所有现有指令调优数据集。

搜集汇总

数据集介绍

构建方式

MMDU数据集的构建旨在评估现有模型在多图像多轮对话中的能力。该数据集包含110个高质量的多图像多轮对话，涉及超过1600个问题，每个问题都配有详细的长篇回答。与以往仅涉及单张图像或少量图像的基准不同，MMDU显著增加了图像数量、问答轮次以及问答的上下文长度。每个对话涉及2到20张图像，平均图像和文本的token长度为8.2k，最大长度达到18k，对现有的多模态大模型提出了显著挑战。

特点

MMDU数据集的特点在于其多图像多轮对话的复杂性。每个对话平均包含9轮问答，最多可达27轮，且每轮问答涉及2到5张图像。数据集的图像和文本token长度显著超过现有的指令调优数据集，平均长度为5k，最大长度为17k。这种设计不仅提升了模型在多图像识别和理解方面的能力，还增强了其在长上下文对话中的表现。

使用方法

MMDU数据集的使用方法包括基准测试和指令调优。用户可以通过benchmark.json文件访问基准测试数据，评估模型在多图像多轮对话中的表现。此外，MMDU-45k指令调优数据集提供了45k个超长上下文的对话数据，用户可以利用这些数据进行模型训练，提升其在多图像识别和长上下文对话中的能力。数据集的使用需遵循CC BY-NC 4.0许可协议，并遵守OpenAI的使用政策。

背景与挑战

背景概述

MMDU数据集由Liuziyu77等人于2024年6月发布，旨在评估多图像多轮对话模型的能力。该数据集包含110个高质量的多图像多轮对话，涉及超过1600个问题，并配有详细的长篇回答。与以往仅涉及单图像或少量图像的基准相比，MMDU显著增加了图像数量、问答轮次以及问答的上下文长度。该数据集的核心研究问题在于提升多模态大模型在多图像识别、理解及长上下文对话处理方面的能力，对视觉问答和多轮对话领域的研究具有重要推动作用。

当前挑战

MMDU数据集在构建过程中面临多重挑战。首先，多图像多轮对话的复杂性要求模型能够同时处理多张图像并理解其间的关联，这对现有模型的图像识别和上下文理解能力提出了极高要求。其次，数据集中每个对话的平均图像和文本长度达到8.2k tokens，最大长度甚至达到18k tokens，这对模型的计算能力和内存管理构成了严峻考验。此外，构建高质量的长篇回答需要大量人工标注和校对，以确保数据的准确性和一致性。这些挑战不仅推动了多模态模型的技术进步，也为未来研究提供了新的方向。

常用场景

经典使用场景

在视觉问答和多轮对话领域，MMDU数据集通过其多图像多轮对话的独特设计，为研究者提供了一个评估和提升模型能力的平台。该数据集包含110个高质量的多图像多轮对话，每个对话包含超过1600个问题，并附有详细的长篇答案。这种设计使得研究者能够在复杂的多图像环境中测试模型的视觉理解和对话处理能力。

实际应用

在实际应用中，MMDU数据集可以用于开发更智能的视觉问答系统，如智能客服、教育辅导和医疗诊断辅助系统。这些系统需要处理复杂的多图像信息和长对话，MMDU数据集的高质量和复杂性使其成为训练和测试这些系统的理想选择。

衍生相关工作

MMDU数据集的发布催生了一系列相关研究，特别是在多模态大模型和多轮对话系统的优化方面。研究者们利用该数据集开发了新的算法和模型，如基于MMDU-45k的指令调优数据集，这些工作显著提升了模型在多图像识别和长上下文对话处理方面的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集