MDSEval

Name: MDSEval
Creator: AWS AI Labs, Language Technology Lab, University of Cambridge
Published: 2025-10-02 12:38:27
License: 暂无描述

arXiv2025-10-02 更新2025-10-04 收录

下载链接：

https://github.com/amazon-science/MDSEval

下载链接

链接失效反馈

官方服务：

资源简介：

MDSEval是一个针对多模态对话摘要任务的元评估基准数据集，由AWS AI Labs和剑桥大学语言技术实验室的研究人员创建。该数据集包含了198个高质量的图像分享对话，每个对话配对5个由SOTA MLLMs生成的摘要，并由人类专家从八个维度进行评估。MDSEval旨在推动鲁棒、人类对齐的多模态评估方法的发展，并促进更复杂的多模态对话代理的研究。

提供机构：

AWS AI Labs, Language Technology Lab, University of Cambridge

创建时间：

2025-10-02

搜集汇总

数据集介绍

构建方式

在多媒体对话摘要研究领域，构建高质量评估基准对推动模型发展至关重要。MDSEval通过四阶段流程精心构建：首先从PhotoChat和DialogCC数据集中筛选出300个高质量图像共享对话，采用独创的互斥关键信息准则确保模态间信息互补性；随后运用四种前沿多模态大语言模型配合三种提示策略生成多样化摘要；接着组织专业标注团队从八个维度进行人工评估；最终建立涵盖198个对话、990个摘要的完整评估体系。该构建方法特别注重跨模态信息的平衡与整合，为评估方法提供了坚实的理论基础。

使用方法

该数据集为多模态摘要评估方法提供了标准化测试平台。研究者可将待评估方法在MDSEval上进行系统测试，通过计算其输出与人工标注在八个维度上的相关性来验证方法有效性。具体而言，对于分数型评估可计算斯皮尔曼相关系数和均方误差，对于对比评估可计算准确率。数据集支持对多模态连贯性、信息覆盖度、忠实度等关键指标的细粒度分析，帮助识别评估方法的系统性偏差。此外，研究者还可利用该基准开展消融实验，探究不同模态信息对摘要质量的影响机制，为开发更精准的评估方法提供数据支撑。

背景与挑战

背景概述

随着人机交互向多模态融合方向发展，多模态对话摘要技术应运而生。2025年，由剑桥大学与AWS AI实验室联合发布的MDSEval数据集，作为首个专注于图像共享对话摘要的元评估基准，填补了该领域缺乏人类标注质量评估体系的空白。该数据集通过构建198组包含图像共享对话、多模型生成摘要及八维度人工标注的数据，为评估多模态摘要模型的性能提供了标准化测试环境，显著推动了多模态自然语言处理领域的量化研究进程。

当前挑战

多模态对话摘要面临双重挑战：在领域问题层面，模型需解决跨模态信息融合的复杂性，包括视觉与文本信息的互补性理解、主题连贯性保持以及模态间信息平衡等核心难题；在数据构建层面，MDSEval通过提出互斥关键信息筛选框架，克服了源数据中模态信息高度重叠导致的评估失真问题，同时需应对人工标注中跨模态指代消解、细粒度忠实度判定等标注一致性挑战。

常用场景

经典使用场景

在自然语言处理领域，MDSEval数据集作为首个多模态对话摘要元评估基准，其经典使用场景聚焦于评估自动摘要生成模型的质量。该数据集通过精心设计的图像共享对话和人工标注的八个质量维度，为研究者提供了系统比较不同评估方法的标准化平台。在模型开发过程中，研究人员可利用该数据集验证评估指标与人类判断的一致性，从而筛选出更可靠的自动评估方法。

解决学术问题

该数据集有效解决了多模态对话摘要领域缺乏可靠评估基准的核心问题。通过引入互斥关键信息筛选框架，它确保了摘要任务对真实多模态理解能力的要求，而非依赖单模态捷径。其定义的八个评估维度（如跨模态连贯性、信息平衡等）填补了传统文本摘要评估体系在多模态场景下的理论空白，为建立人类对齐的评估标准提供了实证基础。

实际应用

在实际应用层面，MDSEval为构建高质量的多模态对话系统提供了关键支撑。在智能客服场景中，基于该基准优化的评估方法能确保生成的对话摘要准确整合图文信息；在教育领域，可辅助开发能理解教学对话中图表关联的智能辅导系统；对于社交媒体分析，则能提升对图文混合对话内容的摘要质量监控，为信息聚合和内容审核提供技术保障。

数据集最近研究