five

MMRC|对话系统数据集|多模态交互数据集

收藏
arXiv2025-02-17 更新2025-02-27 收录
对话系统
多模态交互
下载链接:
http://arxiv.org/abs/2502.11903v1
下载链接
链接失效反馈
资源简介:
MMRC是一个多模态现实世界对话基准数据集,由上海人工智能实验室等机构创建。该数据集从现实世界场景中收集数据,包含5120个经过精心挑选的对话,每个对话都有28720个对应的人工标注问题,用于评估多模态大型语言模型在开放端对话中的六种核心能力,包括信息提取、跨轮推理、信息更新、图像管理、长期记忆回忆和拒绝回答。数据集涵盖了多种主题,确保了数据的多样性和代表性,适用于评估模型在现实对话中的表现。
提供机构:
上海人工智能实验室, 西安交通大学利物浦大学, 蒙纳士大学, MBZUAI, 香港科技大学, 中国科学技术大学, IHPC, A*STAR
创建时间:
2025-02-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
MMRC数据集的构建方式是通过DialogFlow平台收集真实世界的对话数据,然后对这些数据进行清洗和手动标注,确保数据的质量和多样性。DialogFlow平台部署了20种先进的MLLM模型,用于与用户进行对话,从而收集到大量的对话数据。这些数据包含了用户的文本和图像输入,以及模型的响应。在收集到原始对话数据后,研究人员进行了数据清洗,包括删除包含个人隐私、暴力内容、不当言论等敏感信息的对话,并对剩余的数据进行手动标注,以评估模型在开放对话中的六种核心能力。
特点
MMRC数据集的特点在于其真实性和多样性。该数据集包含了5120个精心挑选的对话,涵盖了874个不同的领域,平均对话长度为15.2轮,每轮对话平均包含4.65张图像。此外,该数据集还包含了28720个手动标注的问题,用于评估模型在开放对话中的六种核心能力:信息提取、跨轮推理、信息更新、图像管理、长期记忆回溯和拒绝回答。这使得MMRC数据集成为一个极具挑战性的基准,能够全面评估MLLM模型在真实世界对话场景中的性能。
使用方法
MMRC数据集的使用方法包括评估MLLM模型在开放对话中的六种核心能力:信息提取、跨轮推理、信息更新、图像管理、长期记忆回溯和拒绝回答。评估方法包括基于GPT的评分、人工评估和客观精确度指标。对于信息提取、图像管理和拒绝回答,使用客观精确度指标进行评估,包括提取精确度、图像管理精确度和拒绝精确度。对于跨轮推理、信息更新和长期记忆回溯,则使用基于GPT的评分和人工评估相结合的方式进行评估。此外,MMRC数据集还提供了一种NOTE-TAKING策略,用于改进模型的对话能力。该策略记录对话中的关键信息,并在模型生成响应时提供辅助的上下文,从而提高模型的准确性和一致性。
背景与挑战
背景概述
随着人工智能技术的飞速发展,多模态大型语言模型(MLLMs)在开放式对话中的潜力日益显现,能够生成更为准确和个性化的回应。然而,这些模型在现实场景中的持续交互能力,特别是在记忆、回调和推理方面的能力,仍然有待探索。为此,Xue等人于2025年提出了MMRC数据集,这是一个用于评估MLLMs在现实世界对话中的六个核心开放式能力的多模态基准:信息提取、多轮推理、信息更新、图像管理、记忆回调和答案拒绝。MMRC数据集由来自现实场景的5,120个对话和28,720个相应的手动标注问题组成,对现有的MLLMs提出了重大挑战。在MMRC上对20个MLLMs进行的评估表明,在开放式交互中准确率有所下降。研究者发现了四种常见的失败模式:长期记忆退化、更新事实知识不足、累积的错误假设传播和不愿“说不”。为了缓解这些问题,研究者提出了一种简单而有效的NOTE-TAKING策略,该策略可以记录对话中的关键信息,并在模型响应时提醒模型,从而增强对话能力。在六个MLLMs上的实验表明,该策略能够显著提高模型的整体对话能力。
当前挑战
MMRC数据集面临的挑战包括:1) 所解决的领域问题是MLLMs在现实世界对话中的持续交互能力,特别是在记忆、回调和推理方面的能力;2) 构建过程中遇到的挑战包括数据收集、隐私保护、敏感和暴力内容过滤以及手动标注问题。此外,由于MMRC数据集覆盖多个领域,可能无法包含所有现实世界对话类型,需要进一步探索。虽然NOTE-TAKING策略能够提高模型性能,但笔记生成过程可能计算量大。
常用场景
经典使用场景
MMRC 数据集在自然语言处理和人工智能领域中被广泛用于评估多模态大型语言模型(MLLMs)在现实世界对话中的开放式交互能力。该数据集通过收集真实场景中的对话数据,为模型提供了一种评估其在信息提取、多轮推理、信息更新、图像管理、记忆回溯和拒绝回答等六个核心能力的手段。MMRC 的使用场景主要集中在对话系统的评估和改进,特别是在多模态信息处理和长时记忆能力方面。
实际应用
MMRC 数据集的实际应用场景包括对话系统、智能客服、聊天机器人等。这些系统可以利用 MMRC 数据集来训练和评估其在处理真实世界对话中的能力,从而提高对话的准确性和自然性。此外,MMRC 还可以用于开发新的对话技术和算法,例如基于记忆的对话管理、多模态信息融合等。
衍生相关工作
MMRC 数据集的发布推动了多模态语言模型在开放式对话领域的研究,并衍生出许多相关的工作。例如,研究人员提出了 NOTE-TAKING 策略,通过记录对话中的关键信息来提高 MLLMs 的记忆和推理能力。此外,MMRC 数据集还促进了对话系统评估方法的改进,例如基于 GPT 的评分和人工评估相结合的评价框架。这些相关工作进一步推动了 MLLMs 在开放式对话领域的发展,并为构建更智能和更具交互性的对话系统提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

data

食神オリジナルデータ

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Houston2013, Berlin, Augsburg

本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。

arXiv 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录