MMDiag

Name: MMDiag
Creator: 北京大学计算机科学与技术学院, 北京人工智能科学院
Published: 2025-03-10 15:32:53
License: 暂无描述

arXiv2025-03-10 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.07002v1

下载链接

链接失效反馈

官方服务：

资源简介：

MMDiag是一个多轮多模态对话数据集，由北京大学计算机科学与技术学院和北京人工智能科学院合作创建。该数据集包含日常场景、表格场景和Minigrid场景三种类型，旨在测试多模态大语言模型在处理具有挑战性的多轮对话时的推理能力。数据集通过规则搜索和GPT-4o-mini的辅助生成，具有问题之间、问题与图像之间以及不同图像区域之间的强相关性，更贴近现实世界的场景。

MMDiag is a multi-turn multimodal dialogue dataset jointly developed by the School of Computer Science and Technology, Peking University and the Beijing Academy of Artificial Intelligence. It encompasses three scenario types: daily scenarios, tabular scenarios, and Minigrid scenarios, designed to test the reasoning capabilities of multimodal large language models when processing challenging multi-turn dialogues. The dataset is created through rule-based searches and assisted generation with GPT-4o-mini, and it features strong correlations between different questions, between questions and their corresponding images, as well as among distinct image regions, making it more aligned with real-world scenarios.

提供机构：

北京大学计算机科学与技术学院, 北京人工智能科学院

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

MMDiag数据集是通过精心设计的规则和GPT协助协作生成的，包含日常场景、表格场景和Minigrid场景三个子集。每个子集都包含详细的图像和对应的问答对，并通过规则匹配和GPT-4o-mini的生成能力确保了问题之间的强相关性，以及问题与图像、不同图像区域之间的强相关性。这种构建方式使得MMDiag更贴近真实世界的对话场景，为多轮多模态对话学习提供了一个强大的基准。

使用方法

MMDiag数据集可用于训练和评估多轮多模态对话模型，特别是那些需要视觉 grounding 和推理能力的模型。使用MMDiag进行模型训练时，可以采用以下方法：1. 数据预处理：对MMDiag中的数据进行预处理，包括图像处理、文本清洗等。2. 模型训练：使用MMDiag中的数据进行模型训练，可以使用多种训练策略，如监督学习、强化学习等。3. 模型评估：使用MMDiag中的数据进行模型评估，可以采用多种评估指标，如准确率、召回率、F1值等。4. 模型优化：根据评估结果对模型进行优化，以提高模型的性能。

背景与挑战

背景概述

MMDiag 数据集的创建旨在解决现有多模态大型语言模型（MLLM）在多轮对话中面临的挑战。这些模型在处理复杂的对话时往往难以保持对目标区域的关注，特别是在处理高分辨率图像时。MMDiag 数据集由北京大学计算机科学与技术学院和北京人工智能研究院的研究人员合作生成，旨在通过精心设计的规则和 GPT 辅助，生成具有强相关性的问题、问题与图像之间以及不同图像区域之间的数据集，更贴近现实场景。MMDiag 数据集的创建对多轮多模态对话学习领域具有重要意义，为模型在接地和推理能力方面带来了新的挑战。此外，MMDiag 数据集的创建也推动了 DiagNote 模型的提出，该模型具有多模态接地和推理能力，通过 Deliberate 和 Gaze 两个模块的交互，在多轮对话中执行 Chain-of-Thought 和注释，实现了对视觉和语言信息的联合处理和推理。MMDiag 数据集的创建对多轮多模态对话学习领域具有重要意义，为模型在接地和推理能力方面带来了新的挑战。此外，MMDiag 数据集的创建也推动了 DiagNote 模型的提出，该模型具有多模态接地和推理能力，通过 Deliberate 和 Gaze 两个模块的交互，在多轮对话中执行 Chain-of-Thought 和注释，实现了对视觉和语言信息的联合处理和推理。

当前挑战

MMDiag 数据集的相关挑战主要包括：1) 多轮对话中保持对目标区域的关注，尤其是在处理高分辨率图像时；2) 构建过程中遇到的挑战，例如生成具有强相关性的问题、问题与图像之间以及不同图像区域之间的数据集。MMDiag 数据集的创建对多轮多模态对话学习领域具有重要意义，为模型在接地和推理能力方面带来了新的挑战。此外，MMDiag 数据集的创建也推动了 DiagNote 模型的提出，该模型具有多模态接地和推理能力，通过 Deliberate 和 Gaze 两个模块的交互，在多轮对话中执行 Chain-of-Thought 和注释，实现了对视觉和语言信息的联合处理和推理。

常用场景

经典使用场景

MMDiag 数据集是针对多轮多模态对话学习而设计的，其经典的使用场景包括但不限于多轮视觉问答、多轮图表问答和多轮迷宫导航问答。这些场景要求模型能够跨越多个对话轮次，对图像中的不同区域进行持续和明确的关注，并在随后的问答轮次中保持对同一关键信息的聚焦。例如，在迷宫导航问答中，模型需要准确识别代理（例如“红色三角形”）和目标（例如“紫色钥匙”）的位置来回答初始问题，并在后续问题中基于先前确定的钥匙位置推理代理的起始位置。

解决学术问题

MMDiag 数据集解决了现有多模态大语言模型（MLLMs）在处理复杂多轮对话时面临的准确性和幻觉问题。这些挑战源于 MLLM 难以在整个对话过程中保持对目标区域的关注，尤其是在高分辨率图像中，视觉标记过长时。MMDiag 数据集通过设计规则和 GPT 辅助，协同生成具有强相关性的问题和问题与图像之间的数据，从而更紧密地与现实世界场景相吻合，为多轮多模态对话学习提供了强大的基准。

实际应用

MMDiag 数据集的实际应用场景包括智能客服、虚拟现实/增强现实（VR/AR）中的交互式代理、游戏中的智能助手等。这些应用场景要求模型能够理解和处理视觉和语言信息，并能够在多轮对话中保持对关键信息的关注。MMDiag 数据集通过提供多轮多模态对话数据，有助于提升模型在这些场景下的性能。

数据集最近研究