MMRC
收藏arXiv2025-02-17 更新2025-02-27 收录
下载链接:
http://arxiv.org/abs/2502.11903v1
下载链接
链接失效反馈官方服务:
资源简介:
MMRC是一个多模态现实世界对话基准数据集,由上海人工智能实验室等机构创建。该数据集从现实世界场景中收集数据,包含5120个经过精心挑选的对话,每个对话都有28720个对应的人工标注问题,用于评估多模态大型语言模型在开放端对话中的六种核心能力,包括信息提取、跨轮推理、信息更新、图像管理、长期记忆回忆和拒绝回答。数据集涵盖了多种主题,确保了数据的多样性和代表性,适用于评估模型在现实对话中的表现。
MMRC is a multimodal real-world dialogue benchmark dataset created by institutions including Shanghai AI Laboratory. This dataset is collected from real-world scenarios, containing 5,120 carefully selected dialogues, each corresponding to 28,720 manually annotated questions. It is designed to evaluate six core capabilities of multimodal large language models in open-ended dialogue, including information extraction, cross-turn reasoning, information updating, image management, long-term memory recall, and refusal to answer. The dataset covers a wide range of topics to ensure data diversity and representativeness, making it suitable for assessing model performance in real-world dialogues.
提供机构:
上海人工智能实验室, 西安交通大学利物浦大学, 蒙纳士大学, MBZUAI, 香港科技大学, 中国科学技术大学, IHPC, A*STAR
创建时间:
2025-02-17
搜集汇总
数据集介绍

构建方式
MMRC数据集的构建方式是通过DialogFlow平台收集真实世界的对话数据,然后对这些数据进行清洗和手动标注,确保数据的质量和多样性。DialogFlow平台部署了20种先进的MLLM模型,用于与用户进行对话,从而收集到大量的对话数据。这些数据包含了用户的文本和图像输入,以及模型的响应。在收集到原始对话数据后,研究人员进行了数据清洗,包括删除包含个人隐私、暴力内容、不当言论等敏感信息的对话,并对剩余的数据进行手动标注,以评估模型在开放对话中的六种核心能力。
特点
MMRC数据集的特点在于其真实性和多样性。该数据集包含了5120个精心挑选的对话,涵盖了874个不同的领域,平均对话长度为15.2轮,每轮对话平均包含4.65张图像。此外,该数据集还包含了28720个手动标注的问题,用于评估模型在开放对话中的六种核心能力:信息提取、跨轮推理、信息更新、图像管理、长期记忆回溯和拒绝回答。这使得MMRC数据集成为一个极具挑战性的基准,能够全面评估MLLM模型在真实世界对话场景中的性能。
使用方法
MMRC数据集的使用方法包括评估MLLM模型在开放对话中的六种核心能力:信息提取、跨轮推理、信息更新、图像管理、长期记忆回溯和拒绝回答。评估方法包括基于GPT的评分、人工评估和客观精确度指标。对于信息提取、图像管理和拒绝回答,使用客观精确度指标进行评估,包括提取精确度、图像管理精确度和拒绝精确度。对于跨轮推理、信息更新和长期记忆回溯,则使用基于GPT的评分和人工评估相结合的方式进行评估。此外,MMRC数据集还提供了一种NOTE-TAKING策略,用于改进模型的对话能力。该策略记录对话中的关键信息,并在模型生成响应时提供辅助的上下文,从而提高模型的准确性和一致性。
背景与挑战
背景概述
随着人工智能技术的飞速发展,多模态大型语言模型(MLLMs)在开放式对话中的潜力日益显现,能够生成更为准确和个性化的回应。然而,这些模型在现实场景中的持续交互能力,特别是在记忆、回调和推理方面的能力,仍然有待探索。为此,Xue等人于2025年提出了MMRC数据集,这是一个用于评估MLLMs在现实世界对话中的六个核心开放式能力的多模态基准:信息提取、多轮推理、信息更新、图像管理、记忆回调和答案拒绝。MMRC数据集由来自现实场景的5,120个对话和28,720个相应的手动标注问题组成,对现有的MLLMs提出了重大挑战。在MMRC上对20个MLLMs进行的评估表明,在开放式交互中准确率有所下降。研究者发现了四种常见的失败模式:长期记忆退化、更新事实知识不足、累积的错误假设传播和不愿“说不”。为了缓解这些问题,研究者提出了一种简单而有效的NOTE-TAKING策略,该策略可以记录对话中的关键信息,并在模型响应时提醒模型,从而增强对话能力。在六个MLLMs上的实验表明,该策略能够显著提高模型的整体对话能力。
当前挑战
MMRC数据集面临的挑战包括:1) 所解决的领域问题是MLLMs在现实世界对话中的持续交互能力,特别是在记忆、回调和推理方面的能力;2) 构建过程中遇到的挑战包括数据收集、隐私保护、敏感和暴力内容过滤以及手动标注问题。此外,由于MMRC数据集覆盖多个领域,可能无法包含所有现实世界对话类型,需要进一步探索。虽然NOTE-TAKING策略能够提高模型性能,但笔记生成过程可能计算量大。
常用场景
经典使用场景
MMRC 数据集在自然语言处理和人工智能领域中被广泛用于评估多模态大型语言模型(MLLMs)在现实世界对话中的开放式交互能力。该数据集通过收集真实场景中的对话数据,为模型提供了一种评估其在信息提取、多轮推理、信息更新、图像管理、记忆回溯和拒绝回答等六个核心能力的手段。MMRC 的使用场景主要集中在对话系统的评估和改进,特别是在多模态信息处理和长时记忆能力方面。
实际应用
MMRC 数据集的实际应用场景包括对话系统、智能客服、聊天机器人等。这些系统可以利用 MMRC 数据集来训练和评估其在处理真实世界对话中的能力,从而提高对话的准确性和自然性。此外,MMRC 还可以用于开发新的对话技术和算法,例如基于记忆的对话管理、多模态信息融合等。
衍生相关工作
MMRC 数据集的发布推动了多模态语言模型在开放式对话领域的研究,并衍生出许多相关的工作。例如,研究人员提出了 NOTE-TAKING 策略,通过记录对话中的关键信息来提高 MLLMs 的记忆和推理能力。此外,MMRC 数据集还促进了对话系统评估方法的改进,例如基于 GPT 的评分和人工评估相结合的评价框架。这些相关工作进一步推动了 MLLMs 在开放式对话领域的发展,并为构建更智能和更具交互性的对话系统提供了新的思路。
以上内容由遇见数据集搜集并总结生成



