MIntRec2.0|多模态意图识别数据集|人机对话交互数据集

arXiv2024-03-20 更新2024-06-21 收录

多模态意图识别

人机对话交互

下载链接：

https://github.com/thuiar/MIntRec2.0

下载链接

链接失效反馈

资源简介：

MIntRec2.0是由清华大学创建的大规模多模态意图识别基准数据集，包含1,245个高质量对话，总计15,040个样本，涵盖文本、视频和音频模态。数据集不仅包含超过9,300个范围内样本，还包括超过5,700个多轮对话中自然出现的范围外样本，增强了其实际应用性。数据集创建过程中，首先收集了三个电视剧的原始视频，并根据时间戳分割成话语级别的片段，然后手动将这些片段分组成对话，以匹配对话场景和事件。随后，为每个话语标注了说话者身份信息，以便利用特定的上下文信息。数据集的应用领域包括人机对话交互，旨在解决高级认知意图理解任务，显著促进了相关研究。

提供机构：

清华大学

创建时间：

2024-03-16

AI搜集汇总

数据集介绍

构建方式

MIntRec2.0数据集的构建过程包括四个主要步骤。首先，从三部电视剧中收集原始视频，并根据时间戳将其分割成话语级别的片段。接着，这些片段被手动分组为对话，以确保与对话场景和事件的一致性。随后，为每个话语标注说话者身份信息，以利用特定的上下文信息。最后，提出了一种新的意图分类法，包含30个细粒度的意图类别，并添加了OOS标签以识别不属于任何已知类别的话语。整个数据集由六名经验丰富的标注人员使用文本、视频和音频信息进行标注，最终包含9,304个在范围内和5,736个超出范围的样本。

特点

MIntRec2.0数据集的主要特点在于其大规模和多模态性质。该数据集包含1,245个高质量对话，总计15,040个样本，涵盖文本、视频和音频三种模态。此外，数据集引入了30个细粒度的意图类别，并特别标注了5,736个超出范围的样本，这些样本在多轮对话中自然出现，增强了数据集在实际应用中的适用性。数据集还提供了每个话语的说话者信息，丰富了其在多方对话研究中的应用价值。

使用方法

MIntRec2.0数据集的使用方法包括数据组织、多模态特征提取、多模态融合以及训练和评估。在单轮对话中，可以直接提取文本、视频和音频模态的特征。在多轮对话中，通过拼接当前话语和上下文信息来利用上下文信息。多模态融合阶段采用两种强融合方法（MAG-BERT和MulT）来捕捉跨模态交互。训练阶段结合多模态融合损失和交叉熵损失进行监督学习。推理阶段采用基于阈值的开集分类方法来识别高置信度的在范围内样本和检测低置信度的超出范围样本。

背景与挑战

背景概述

在多模态意图识别领域，理解人类意图在多模态场景中的重要性日益凸显，其应用涵盖人机交互、智能交通系统和医疗诊断等多个领域。然而，现有的大多数多模态意图基准数据集规模有限，且在处理多轮对话中的超出范围样本时存在困难。为此，清华大学等机构的研究人员于2024年推出了MIntRec2.0数据集，该数据集包含1,245个高质量对话和15,040个样本，每个样本在30个细粒度类别的新意图分类法中进行了标注，涵盖文本、视频和音频模态。MIntRec2.0不仅包含9,300多个在范围样本，还包含5,700多个在多轮对话中自然出现的超出范围样本，增强了其在实际应用中的适用性。该数据集的推出为研究人机对话交互提供了开创性的基础，并显著促进了相关应用的发展。

当前挑战

MIntRec2.0数据集在构建和应用过程中面临多项挑战。首先，多模态意图识别需要整合来自真实世界情境的非语言模态，以增强对人类意图的理解，这要求在数据收集和处理过程中进行精细的模态融合。其次，数据集在处理多轮对话中的超出范围样本时存在困难，这些样本在实际开放场景中自然出现，对系统的鲁棒性提出了高要求。此外，尽管现有方法在整合非语言信息方面取得了改进，但有效利用上下文信息和检测超出范围样本仍然是一个重大挑战。特别是，强大的大型语言模型在高级认知意图理解任务中与人类表现存在显著差距，这凸显了机器学习方法在该领域的局限性。

常用场景

经典使用场景

MIntRec2.0数据集在多模态意图识别和超出范围检测中展现了其经典应用场景。该数据集通过整合文本、视频和音频等多模态信息，能够有效提升对人类意图的理解，特别是在多轮对话中识别细微的意图变化和检测超出预定义类别的样本。这种能力在智能客服系统、智能交通系统和医疗诊断等领域具有广泛的应用前景。

衍生相关工作

MIntRec2.0数据集的发布催生了一系列相关研究工作。研究者们基于该数据集开发了多种多模态融合方法，如MAG-BERT和MulT，这些方法在多模态意图识别任务中表现出色。此外，数据集中的超出范围样本检测问题也引发了新的研究方向，推动了开放世界分类和异常检测技术的发展。这些研究不仅提升了多模态意图识别的性能，也为其他多模态任务提供了新的思路和方法。

数据集最近研究

相关研究论文

1
MIntRec2.0: A Large-scale Benchmark Dataset for Multimodal Intent Recognition and Out-of-scope Detection in Conversations清华大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

胎儿基因组病的NIPT检测及随访数据

本条为14000例标本的高通量测序的检测结果，包括625例高通量测序高风险结果的进一步介入性产前诊断（羊水、脐血穿刺）结果，产前诊断结果包含核型分析结果和微阵列芯片检测结果；以及高通量测序阴性结果的进一步妊娠结局跟踪随访结果。

国家人口健康科学数据中心收录

大学生运动和体质健康数据集（2014-2023）

《大学生运动与体质健康数据集（2014-2023）》涵盖了大学生群体在运动能力、基础身体形态、身体机能及身体素质等多个方面的关键基础数据。该数据集的采集时间跨度为2014年至2023年，样本采集自全国34个省级行政区域，共计123281名大学生参与，平均年龄为20.53岁。建立大学生运动和体质健康数据集可以准确把握学生体质健康的整体水平和变化趋势，了解大学生运动和体质健康状况，对指导个性化健康干预、优化体育教育资源配置、支持促进科学研究以及提高公众健康意识等均具有重要意义。

国家人口健康科学数据中心收录

HRRSD

HRRSD包含21,761张从Google Earth和Baidu Map获取的高分辨率（0.15-m至1.2-m）图像，涵盖55,740个对象实例和13个类别的遥感图像对象。数据集被分为训练、验证和测试三个子集，分别包含5401、5417和10943张图像。此外，还提供了数据集的统计信息和基准测试结果。

github 收录