MMDialog

arXiv2022-12-21 更新2024-06-21 收录

下载链接：

https://github.com/victorsungo/MMDialog

下载链接

链接失效反馈

官方服务：

资源简介：

MMDialog是一个大规模的多轮对话数据集，旨在促进多模态开放领域对话的研究。该数据集由北京大学和微软公司合作创建，包含1.08百万个真实世界的对话和1.53百万个独特的图像，覆盖4,184个话题。数据集的创建过程中，通过精心设计的数据过滤和后处理步骤，确保了数据的质量和多样性。MMDialog的应用领域广泛，旨在解决多模态对话系统中的生成和检索任务，为构建更吸引人的多模态对话代理提供支持。

MMDialog is a large-scale multi-turn dialogue dataset dedicated to advancing research in open-domain multimodal dialogue. It was co-created by Peking University and Microsoft Corporation, containing 1.08 million real-world dialogues and 1.53 million unique images across 4,184 topics. During its curation, meticulously designed data filtering and post-processing procedures were implemented to ensure the dataset's quality and diversity. MMDialog has broad application scenarios, aiming to address the generation and retrieval tasks in multimodal dialogue systems and provide support for building more engaging multimodal dialogue agents.

提供机构：

北京大学, 北京, 中国微软公司, 北京, 中国

创建时间：

2022-11-11

搜集汇总

数据集介绍

构建方式

在构建多模态开放域对话数据集MMDialog的过程中，研究团队从社交媒体平台中提取了真实的人类对话内容。首先，通过手动筛选出4,184个热门话题标签作为种子，确保数据集涵盖广泛领域。随后，利用这些标签爬取包含至少一张图像的对话轮次作为锚点，并递归地收集与之相关的回复链，从而构建多轮对话结构。为了提升数据质量，团队设计了一系列精细的过滤和后处理步骤，包括移除有害内容、剔除不完整图像以及将表情符号和标签转换为自然语言形式，最终形成了包含108万对话和153万图像的大规模语料库。

特点

MMDialog数据集以其规模宏大和领域多样性著称，成为当前最大的多模态开放域对话资源。该数据集包含超过四千个话题标签，确保了对话主题的广泛覆盖，从日常生活到专业领域均有涉及。其独特之处在于图像可出现在对话的任何轮次中，模拟了真实人类交流中多模态内容自由穿插的特点。与现有数据集相比，MMDialog不仅对话数量达到百万级别，平均每个对话包含2.59张图像和4.56轮交互，而且文本轮次的平均词符数更高，提供了更丰富的语义信息。

使用方法

MMDialog支持多模态对话系统的两大核心任务：响应生成与检索。在生成任务中，模型需基于对话上下文合成包含文本和图像的响应，研究者可借鉴Divter等先进架构进行训练。检索任务则要求从候选集中筛选出与上下文相关的多模态元素，DE++等双编码器模型为此提供了有效基线。为评估模型性能，数据集引入了基于CLIP的MM-Relevance指标，该指标通过跨模态匹配来衡量生成或检索响应与真实响应之间的相关性，有效解决了模态不对齐的评估难题。

背景与挑战

背景概述

在人工智能领域，构建能够进行多模态开放域对话的智能体已成为一项关键研究方向。MMDialog数据集由北京大学与微软研究院的研究团队于2022年联合创建，旨在解决现有多模态对话数据在规模与领域多样性上的局限。该数据集从社交媒体平台中提取了108万真实人类对话，涵盖153万独特图像与4184个话题，成为首个百万规模的多轮开放域多模态对话语料库。其核心研究问题聚焦于如何让对话系统理解并生成融合文本与图像的响应，从而推动多模态对话建模的发展，对自然语言处理与计算机视觉的交叉领域产生了深远影响。

当前挑战

MMDialog致力于解决多模态开放域对话中的核心挑战，即如何使系统在自由对话中灵活理解与生成跨模态内容。具体而言，该领域面临模态对齐困难，例如在生成或检索响应时，文本与图像元素的顺序可能与真实响应不一致，导致评估复杂化。在数据集构建过程中，研究团队需应对社交媒体数据的噪声与隐私问题，通过精心设计的数据过滤流程，剔除有害对话、无效图像及非常规字符，同时将表情符号与话题标签转化为自然语言，以提升语料质量与连贯性。

常用场景

经典使用场景

在开放域多模态对话系统研究中，MMDialog数据集常被用于训练和评估模型在真实社交场景下的多轮对话能力。该数据集通过整合文本与图像信息，模拟人类日常交流中自由切换模态的互动模式，为研究者提供了丰富的多模态上下文环境。经典应用场景包括基于检索和生成两种范式的多模态响应预测任务，旨在推动对话系统在理解与生成图文混合内容方面的技术进步。

解决学术问题

MMDialog有效解决了多模态对话领域数据规模有限与领域多样性不足的学术难题。传统数据集如Visual Dialog或Image-Chat多基于众包构建，对话内容受限于给定图像，难以反映开放域交流中模态自由组合的特性。该数据集通过百万级真实社交对话的收集，填补了大规模开放域多模态语料的空白，支持模型学习更自然的跨模态交互模式，并为多模态响应生成与检索任务提供了标准化评估基准。

衍生相关工作

MMDialog的发布促进了多模态对话建模的一系列衍生研究。例如，Sun等人提出的Divter模型利用该数据集进行多模态响应生成，实现了文本与图像的高效协同生成；Zang等人扩展的双编码器检索框架DE++则被应用于多模态响应检索任务。此外，基于CLIP的MM-Relevance评估指标也被广泛采纳，为跨模态响应对齐问题提供了新的解决方案，推动了后续工作在模态意图预测与跨模态匹配方向的深入探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集