MMLA

github2025-04-24 更新2025-04-25 收录

下载链接：

https://github.com/thuiar/MMLA

下载链接

链接失效反馈

官方服务：

资源简介：

MMLA是一个综合性的多模态语言分析基准，旨在评估基础模型在理解人类对话语义方面的能力。它包含超过61K的多模态话语，覆盖六个核心维度：意图、情感、对话行为、情感、说话风格和沟通行为。数据集来自多种来源，包括电影、电视剧、YouTube、Vimeo、Bilibili、TED等。

MMLA is a comprehensive multimodal language analysis benchmark designed to evaluate the capability of foundation models in understanding the semantics of human conversations. It contains over 61K multimodal utterances, covering six core dimensions: intent, emotion, conversational behavior, sentiment, speaking style, and communicative behavior. The dataset is sourced from diverse origins including films, TV series, YouTube, Vimeo, Bilibili, TED and more.

创建时间：

2025-04-24

原始信息汇总

MMLA 数据集概述

数据集简介

名称: MMLA (Multimodal Language Analysis Benchmark)
目的: 评估多模态大语言模型(MLLMs)在理解人类对话中高级语义的能力
特点:
- 包含超过61K多模态话语样本
- 覆盖舞台和真实场景
- 包含6个核心语义维度

核心语义维度

意图(Intent)
情感(Emotion)
对话行为(Dialogue Act)
情感倾向(Sentiment)
说话风格(Speaking Style)
交流行为(Communication Behavior)

数据来源

样本数量: 61K+
模态: 3种
视频时长: 76.6小时
来源类型:
- 电影
- 电视剧
- YouTube/Vimeo/Bilibili/TED视频
- 即兴剧本

评估数据集

维度	数据集	来源
Intent	MIntRec, MIntRec2.0	ACM MM 2022, ICLR 2024
Emotion	MELD, IEMOCAP	ACL 2019, Language Resources and Evaluation 2008
Dialogue Act	MELD-DA, IEMOCAP-DA	ACL 2020
Sentiment	MOSI, CH-SIMS v2.0	IEEE Intelligent Systems 2016, ICMI 2022
Speaking Style	UR-FUNNY-v2, MUStARD	ACL 2019
Communication Behavior	Anno-MI (client/therapist)	ICASSP 2022

评估模型

大语言模型(LLMs)

Qwen2 (0.5B/1.5B/7B)
Llama3 (8B)
InternLM2.5 (7B)

多模态大语言模型(MLLMs)

VideoLLaMA2 (7B)
Qwen2-VL (7B/72B)
LLaVA-Video (7B/72B)
LLaVA-OneVision (7B/72B)
MiniCPM-V-2.6 (8B)

评估方法

零样本推理(Zero-shot Inference)
监督微调(Supervised Fine-tuning)
指令微调(Instruction Tuning)

主要结果

零样本推理排名

GPT-4o (52.60% ACC)
Qwen2-VL-72B (52.55% ACC)
LLaVA-OV-72B (52.44% ACC)

监督微调/指令微调排名

Qwen2-VL-72B (SFT, 69.18% ACC)
MiniCPM-V-2.6-8B (SFT, 68.88% ACC)
LLaVA-Video-72B (IT, 68.87% ACC)

引用信息

bibtex @article{zhang2025mmla, author={Zhang, Hanlei and Li, Zhuohang and Zhu, Yeshuang and Xu, Hua and Wang, Peiwu and Zhu, Haige and Zhou, Jie and Zhang, Jinchao}, title={Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark}, year={2025}, journal={arXiv preprint arXiv:2504.16427}, }

搜集汇总

数据集介绍

构建方式

在多媒体语言分析领域，MMLA数据集的构建采用了系统化的方法，整合了来自9个不同来源的61,000余个多模态样本，涵盖影视作品、社交媒体视频及即兴对话脚本等多种场景。研究团队通过精心设计的标注框架，对这些样本在意图、情感、对话行为等六个核心语义维度上进行多层次标注，确保数据覆盖认知层面的复杂语义特征。数据采集过程兼顾了表演性场景和真实世界对话的平衡，并采用严格的质控流程验证标注一致性。

特点

作为多模态语言分析领域的前沿数据集，MMLA最显著的特点是其在语义维度上的全面覆盖。该数据集不仅包含传统的情绪和情感分析维度，还创新性地纳入了说话风格、沟通行为等细粒度语义特征。多模态特性体现在同时整合文本、视觉和听觉三种数据模态，其中视觉模态包含76.6小时的视频素材。数据集特别强调认知级语义的理解挑战，其样本复杂度体现在跨模态语义关联和隐含意图的深层解析需求上。

使用方法

MMLA数据集支持三种主流的模型评估范式：零样本推理可直接测试模型的先天语义理解能力；监督微调适用于特定任务的性能优化；指令微调则能检验模型遵循复杂语义指令的能力。研究人员可通过加载标准化的数据分割方案，使用配套的评估脚本来量化模型在六个维度上的表现。数据集特别设计了跨模态对齐接口，便于提取协调的文本-视觉-听觉特征，为多模态联合建模提供技术支持。

背景与挑战

背景概述

MMLA（多模态语言分析）数据集是2025年由Zhang Hanlei等学者提出的综合性基准测试，旨在探索多模态大语言模型（MLLMs）在理解人类对话高阶语义方面的潜力。该数据集整合了来自9个子集的61,000余条多模态话语数据，涵盖影视、社交媒体及即兴对话等多种真实与模拟场景，聚焦意图识别、情感分析、对话行为等六类核心语义维度。作为首个系统评估MLLMs认知级语义理解能力的资源，MMLA通过零样本推理、监督微调和指令调优三种范式对8类主流模型进行评测，揭示了现有模型在复杂语义解析上的显著局限（最高准确率仅70%），为多模态自然语言处理领域提供了关键的研究基线与改进方向。

当前挑战

MMLA数据集面临双重挑战：在领域问题层面，多模态语义理解的复杂性远超单模态任务，模型需同步处理文本、音频、视频的异构特征及其动态交互，现有方法对隐含意图、讽刺语气等抽象语义的捕捉效率不足；在构建过程中，跨数据集标注标准不统一（如情感标签的离散/连续差异）、多模态对齐噪声（如音画不同步）、以及真实场景数据的隐私与版权问题，均对数据质量与规模扩展形成制约。实验表明，即便是微调后的顶尖模型在沟通行为识别等细粒度任务上仍存在15%以上的性能波动，凸显了多模态联合表征学习的艰巨性。

常用场景

经典使用场景

在多媒体语言分析领域，MMLA数据集作为一项综合性基准测试，广泛应用于评估多模态大语言模型（MLLMs）在理解人类对话高层次语义方面的能力。该数据集覆盖了意图、情感、对话行为、情感、说话风格和沟通行为六大核心维度，为研究者提供了一个标准化的测试平台，用以验证模型在复杂语义理解任务中的表现。

实际应用

MMLA数据集的实际应用场景包括智能客服、情感分析、对话系统优化等领域。通过利用该数据集的多模态特性，开发者可以训练出更具鲁棒性的模型，以应对现实世界中的复杂对话场景。例如，在心理治疗对话分析中，该数据集可以帮助模型更准确地识别患者的情绪和意图，从而提供更精准的反馈。

衍生相关工作

MMLA数据集已经催生了一系列相关研究，特别是在多模态大语言模型的优化和评估方面。例如，基于该数据集的实验结果，研究者提出了多种改进模型性能的方法，包括零样本推理、监督微调和指令调优。此外，该数据集还被用于评估如Qwen2-VL、VideoLLaMA2和LLaVA-Video等主流模型的性能，推动了多模态语言分析领域的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集