MOD

Name: MOD
Creator: 中国科学院计算技术研究所智能信息处理重点实验室
Published: 2021-09-04 18:39:52
License: 暂无描述

arXiv2021-09-04 更新2024-06-21 收录

下载链接：

https://github.com/lizekang/DSTC10-MOD

下载链接

链接失效反馈

官方服务：

资源简介：

MOD数据集是由中国科学院计算技术研究所智能信息处理重点实验室创建的一个大规模中文多模态对话数据集，专注于将互联网模因融入开放领域对话中，以增强对话的表达力和趣味性。该数据集包含约45,000个对话，总计约606,000条语句，每个对话平均包含13条语句和4个互联网模因，每个含模因的语句都标注了相应的情感。数据集的创建过程涉及从互联网收集模因，并通过专业注释者进行筛选和标注，确保数据质量。该数据集主要用于研究多模态对话建模和情感分析，旨在解决如何使对话系统更加生动和情感丰富的问题。

The MOD dataset is a large-scale Chinese multimodal dialogue dataset created by the Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences. It focuses on integrating internet memes into open-domain dialogues to enhance the expressive power and engagement of conversations. This dataset contains approximately 45,000 dialogues, totaling around 606,000 utterances. On average, each dialogue includes 13 utterances and 4 internet memes, and every utterance with a meme is annotated with its corresponding sentiment. The dataset construction process involves collecting memes from the internet, followed by screening and annotation by professional annotators to ensure data quality. Primarily used for research on multimodal dialogue modeling and sentiment analysis, this dataset aims to solve the problem of how to make dialogue systems more vivid and emotionally rich.

提供机构：

中国科学院计算技术研究所智能信息处理重点实验室

创建时间：

2021-09-04

搜集汇总

数据集介绍

构建方式

在构建MOD数据集的过程中，研究团队首先从互联网广泛收集网络表情包候选集，并经过人工筛选确保质量，最终选取307个表情包，其中40%不含文字以平衡视觉特征。随后，基于现有的大规模中文对话数据集，筛选出超过10轮对话的会话作为基础。标注人员随后将合适的表情包插入或替换部分文本，以增强对话的情感表达，并为每个使用的表情包标注对应情感。为确保数据质量，标注过程经过严格培训与周期性检查，最终形成包含约4.5万对话、60.6万语句的数据集，平均每个对话包含13.42轮语句和4.06个表情包。

使用方法

MOD数据集的使用方法主要围绕多任务学习框架展开。研究人员可基于该数据集训练模型，以同时处理文本生成、表情包使用预测和表情包检索三个子任务。通过统一的序列生成架构，如基于Transformer的解码器，模型能够将多模态响应生成视为语言建模问题，从而生成包含文本、表情包或混合形式的响应。数据集中提供的情感标签可用于辅助情感分析任务，提升对话的情感理解能力。实验表明，该数据集支持模型在开放域对话中实现生动、情感丰富的多模态交流。

背景与挑战

背景概述

随着社交媒体中网络表情包的广泛传播，其在在线对话中增强表达生动性与情感传递的作用日益凸显。为推进多模态开放域对话系统的研究，中国科学院计算技术研究所与腾讯微信人工智能团队于2021年联合构建了MOD数据集。该数据集聚焦于融合网络表情包的多模态开放域对话任务，旨在解决传统文本对话在情感表达与视觉交互方面的局限性。通过整合约4.5万组中文对话与60万余条语句，并标注表情包对应的情感类别，MOD数据集为多模态对话生成与情感分析提供了重要资源，推动了对话系统向更自然、更具表现力的方向发展。

当前挑战

MOD数据集致力于解决多模态开放域对话中表情包融合生成的复杂问题，其核心挑战在于模型需同时理解文本与视觉元素的语义关联，并准确捕捉背后的情感意图。具体而言，构建过程中面临多重困难：首先，表情包的视觉特征多样且常包含隐含文本信息，需平衡视觉与文本特征以避免模型过度依赖单一模态；其次，为确保对话自然性，需精心筛选表情包候选集并控制其语义分布，避免数据偏差；此外，数据标注需协调情感标签的一致性，并设计包含未见表情包的测试集以评估模型泛化能力，这些因素共同增加了数据集构建的复杂性与严谨性要求。

常用场景

经典使用场景

在开放域对话系统研究中，MOD数据集为多模态对话生成提供了经典的应用场景。该数据集通过将丰富的网络表情包融入多轮中文对话，构建了包含文本与视觉元素交互的对话语境。研究者利用该数据集训练模型，使其能够根据历史对话内容生成兼具文本与表情包的生动回复，从而模拟真实在线聊天中人类使用表情包增强表达力的行为。这一场景不仅推动了对话系统从纯文本向多模态的演进，也为评估模型在理解视觉语义与情感传递方面的能力提供了标准测试平台。

解决学术问题

MOD数据集主要解决了开放域对话系统中多模态融合与情感理解的学术难题。传统对话研究多局限于文本模态，难以捕捉网络表情包所承载的隐含情感与幽默语义。该数据集通过标注每张表情包对应的情感类别，为模型提供了跨模态情感分析的监督信号。同时，其设计的困难测试集包含训练阶段未出现的表情包，有效评估模型对未知视觉元素的泛化能力。这些特性使得MOD能够促进对话系统在情感一致性、视觉语义对齐以及开放域适应性等方面的研究进展，填补了多模态对话生成领域的数据空白。

实际应用

在实际应用层面，MOD数据集为开发具有情感表达能力的智能对话助手提供了关键支持。基于该数据集训练的模型可应用于社交媒体客服、在线娱乐聊天机器人以及情感陪伴系统等场景，使机器生成的回复更贴近人类自然交流习惯。例如，在心理疏导或教育陪伴应用中，系统可通过选择恰当的表情包传递共情与鼓励，增强交互的亲和力。此外，该数据集也有助于优化即时通讯软件中的表情包推荐功能，根据对话上下文自动匹配符合语境与情感的视觉元素，提升用户体验。

数据集最近研究