MMChat

Name: MMChat
Creator: 阿里巴巴集团
Published: 2022-05-01 17:51:17
License: 暂无描述

arXiv2022-05-01 更新2024-06-21 收录

下载链接：

https://github.com/silverriver/MMChat

下载链接

链接失效反馈

官方服务：

资源简介：

MMChat是一个大规模的中文多模态对话数据集，包含120,840个过滤后的高质量对话和204,320张图片。该数据集从社交媒体中收集，特别关注图像引导对话中的稀疏性问题。数据集的创建过程包括从社交媒体收集原始对话，设计精细的数据过滤流程，以及手动标注部分对话以进一步过滤。MMChat的应用领域主要集中在开发更吸引人的对话系统，特别是在多模态上下文中的对话生成任务。

MMChat is a large-scale Chinese multimodal dialogue dataset comprising 120,840 filtered high-quality dialogues and 204,320 images. Collected from social media, this dataset specifically focuses on the sparsity issue in image-guided dialogues. The dataset creation process includes collecting raw dialogues from social media, designing a meticulous data filtering pipeline, and manually annotating a portion of dialogues for further screening. The main application scenarios of MMChat are centered on developing more engaging dialogue systems, particularly for dialogue generation tasks in multimodal contexts.

提供机构：

阿里巴巴集团

创建时间：

2021-08-16

搜集汇总

数据集介绍

构建方式

MMChat数据集的构建始于对中国社交媒体上用户分享的日常生活图像和文本的收集。数据集构建采用两阶段流程：首先收集活跃在社交媒体上的种子用户，然后收集这些用户发布的图像及其下的评论，从而构建对话。经过数据清洗和后处理，过滤掉低质量图像和对话，并保留与图像紧密相关的对话内容，最终形成包含120.84K对话会话和204.32K图像的MMChat数据集。为了进一步提高数据集质量，研究者从MMChat中随机抽取100K对话会话进行人工检查，根据图像质量、对话内容的非攻击性和与图像的相关性进行筛选，构建了包含19.90K对话会话和52.66K图像的MMChat-HF数据集。

特点

MMChat数据集的特点在于它包含图像支撑的对话，这些对话是从真实的社交媒体交流中收集的，能够反映现实生活中对话内容可能偏离图像主题的现象。与现有数据集不同，MMChat允许每个对话会话对应一个或多个图像，并通过预训练的图像描述模型揭示了每张图像的语义信息。MMChat-HF数据集则是在MMChat基础上进一步人工筛选的结果，对话内容更长，相关性更强，质量更高。

使用方法

使用MMChat数据集时，研究者可以将其用于训练和评估多模态对话系统，特别是针对图像稀疏性问题进行对话生成任务的研究。数据集提供了丰富的图像和对话内容，可用于多模态预训练模型的研究，并有助于理解中国多模态交流的社会科学方面。在实验中，研究者提出了一种基于注意力路由机制的基准模型，用于解决图像稀疏性问题，并在MMChat和MMChat-HF数据集上进行了评估，结果表明结合视觉上下文对对话建模有积极影响，而基准模型能够更好地处理图像稀疏性问题。

背景与挑战

背景概述

MMChat 数据集由阿里巴巴集团、乌得勒支大学和三星中国研究院的研究人员共同创建，旨在推动多模态对话系统的发展。该数据集收集了来自中国社交媒体上的真实对话，涵盖了32.4M原始对话和120.84K过滤后的对话。MMChat 数据集的创建是为了解决现有数据集在多模态对话中存在的稀疏性问题，即对话内容可能会随着交流的进行而偏离图像相关的主题。为了更好地研究这个问题，研究人员从 MMChat 中手动标注了100K对话，并据此进一步过滤了数据集，形成了 MMChat-HF。这个数据集为研究多模态对话提供了宝贵的资源，并为理解中国社会中多模态交流的进行提供了新的视角。

当前挑战

MMChat 数据集的研究背景主要集中在多模态对话系统中图像稀疏性问题的挑战。在构建过程中，研究人员面临的主要挑战包括：如何从大量的原始对话中筛选出高质量、与图像高度相关的对话；如何有效地处理图像特征在对话生成任务中的稀疏性问题。为了应对这些挑战，研究人员提出了一种基于注意力路由机制的基准模型，该模型能够更好地处理图像特征的稀疏性，从而提高对话生成的质量。实验结果表明，结合图像特征对于对话建模具有积极作用，而处理图像特征的稀疏性问题也是提高对话生成性能的关键。

常用场景

经典使用场景

MMChat数据集作为大规模中文多模态对话语料库，广泛应用于对话系统的开发和研究。其核心使用场景是构建能够理解并生成多模态上下文（如文本、图像）的对话系统。通过分析对话中的图像和文本内容，系统可以更准确地理解和回应用户的需求，提升对话的丰富性和互动性。

衍生相关工作

基于MMChat数据集的研究推动了多模态对话系统的发展，衍生出了一系列经典工作。例如，研究团队提出了基于注意力路由机制的模型，有效处理了图像特征在对话生成任务中的稀疏性问题。这些研究成果不仅提升了对话系统的性能，也为多模态学习、视觉问答等领域的研究提供了新的视角和方法。

数据集最近研究