MMLA
收藏github2025-04-24 更新2025-04-25 收录
下载链接:
https://github.com/thuiar/MMLA
下载链接
链接失效反馈官方服务:
资源简介:
MMLA是一个综合性的多模态语言分析基准,旨在评估基础模型在理解人类对话语义方面的能力。它包含超过61K的多模态话语,覆盖六个核心维度:意图、情感、对话行为、情感、说话风格和沟通行为。数据集来自多种来源,包括电影、电视剧、YouTube、Vimeo、Bilibili、TED等。
MMLA is a comprehensive multimodal language analysis benchmark designed to evaluate the capability of foundation models in understanding the semantics of human conversations. It contains over 61K multimodal utterances, covering six core dimensions: intent, emotion, conversational behavior, sentiment, speaking style, and communicative behavior. The dataset is sourced from diverse origins including films, TV series, YouTube, Vimeo, Bilibili, TED and more.
创建时间:
2025-04-24
原始信息汇总
MMLA 数据集概述
数据集简介
- 名称: MMLA (Multimodal Language Analysis Benchmark)
- 目的: 评估多模态大语言模型(MLLMs)在理解人类对话中高级语义的能力
- 特点:
- 包含超过61K多模态话语样本
- 覆盖舞台和真实场景
- 包含6个核心语义维度
核心语义维度
- 意图(Intent)
- 情感(Emotion)
- 对话行为(Dialogue Act)
- 情感倾向(Sentiment)
- 说话风格(Speaking Style)
- 交流行为(Communication Behavior)
数据来源
- 样本数量: 61K+
- 模态: 3种
- 视频时长: 76.6小时
- 来源类型:
- 电影
- 电视剧
- YouTube/Vimeo/Bilibili/TED视频
- 即兴剧本
评估数据集
| 维度 | 数据集 | 来源 |
|---|---|---|
| Intent | MIntRec, MIntRec2.0 | ACM MM 2022, ICLR 2024 |
| Emotion | MELD, IEMOCAP | ACL 2019, Language Resources and Evaluation 2008 |
| Dialogue Act | MELD-DA, IEMOCAP-DA | ACL 2020 |
| Sentiment | MOSI, CH-SIMS v2.0 | IEEE Intelligent Systems 2016, ICMI 2022 |
| Speaking Style | UR-FUNNY-v2, MUStARD | ACL 2019 |
| Communication Behavior | Anno-MI (client/therapist) | ICASSP 2022 |
评估模型
大语言模型(LLMs)
- Qwen2 (0.5B/1.5B/7B)
- Llama3 (8B)
- InternLM2.5 (7B)
多模态大语言模型(MLLMs)
- VideoLLaMA2 (7B)
- Qwen2-VL (7B/72B)
- LLaVA-Video (7B/72B)
- LLaVA-OneVision (7B/72B)
- MiniCPM-V-2.6 (8B)
评估方法
- 零样本推理(Zero-shot Inference)
- 监督微调(Supervised Fine-tuning)
- 指令微调(Instruction Tuning)
主要结果
零样本推理排名
- GPT-4o (52.60% ACC)
- Qwen2-VL-72B (52.55% ACC)
- LLaVA-OV-72B (52.44% ACC)
监督微调/指令微调排名
- Qwen2-VL-72B (SFT, 69.18% ACC)
- MiniCPM-V-2.6-8B (SFT, 68.88% ACC)
- LLaVA-Video-72B (IT, 68.87% ACC)
引用信息
bibtex @article{zhang2025mmla, author={Zhang, Hanlei and Li, Zhuohang and Zhu, Yeshuang and Xu, Hua and Wang, Peiwu and Zhu, Haige and Zhou, Jie and Zhang, Jinchao}, title={Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark}, year={2025}, journal={arXiv preprint arXiv:2504.16427}, }
搜集汇总
数据集介绍

构建方式
在多媒体语言分析领域,MMLA数据集的构建采用了系统化的方法,整合了来自9个不同来源的61,000余个多模态样本,涵盖影视作品、社交媒体视频及即兴对话脚本等多种场景。研究团队通过精心设计的标注框架,对这些样本在意图、情感、对话行为等六个核心语义维度上进行多层次标注,确保数据覆盖认知层面的复杂语义特征。数据采集过程兼顾了表演性场景和真实世界对话的平衡,并采用严格的质控流程验证标注一致性。
特点
作为多模态语言分析领域的前沿数据集,MMLA最显著的特点是其在语义维度上的全面覆盖。该数据集不仅包含传统的情绪和情感分析维度,还创新性地纳入了说话风格、沟通行为等细粒度语义特征。多模态特性体现在同时整合文本、视觉和听觉三种数据模态,其中视觉模态包含76.6小时的视频素材。数据集特别强调认知级语义的理解挑战,其样本复杂度体现在跨模态语义关联和隐含意图的深层解析需求上。
使用方法
MMLA数据集支持三种主流的模型评估范式:零样本推理可直接测试模型的先天语义理解能力;监督微调适用于特定任务的性能优化;指令微调则能检验模型遵循复杂语义指令的能力。研究人员可通过加载标准化的数据分割方案,使用配套的评估脚本来量化模型在六个维度上的表现。数据集特别设计了跨模态对齐接口,便于提取协调的文本-视觉-听觉特征,为多模态联合建模提供技术支持。
背景与挑战
背景概述
MMLA(多模态语言分析)数据集是2025年由Zhang Hanlei等学者提出的综合性基准测试,旨在探索多模态大语言模型(MLLMs)在理解人类对话高阶语义方面的潜力。该数据集整合了来自9个子集的61,000余条多模态话语数据,涵盖影视、社交媒体及即兴对话等多种真实与模拟场景,聚焦意图识别、情感分析、对话行为等六类核心语义维度。作为首个系统评估MLLMs认知级语义理解能力的资源,MMLA通过零样本推理、监督微调和指令调优三种范式对8类主流模型进行评测,揭示了现有模型在复杂语义解析上的显著局限(最高准确率仅70%),为多模态自然语言处理领域提供了关键的研究基线与改进方向。
当前挑战
MMLA数据集面临双重挑战:在领域问题层面,多模态语义理解的复杂性远超单模态任务,模型需同步处理文本、音频、视频的异构特征及其动态交互,现有方法对隐含意图、讽刺语气等抽象语义的捕捉效率不足;在构建过程中,跨数据集标注标准不统一(如情感标签的离散/连续差异)、多模态对齐噪声(如音画不同步)、以及真实场景数据的隐私与版权问题,均对数据质量与规模扩展形成制约。实验表明,即便是微调后的顶尖模型在沟通行为识别等细粒度任务上仍存在15%以上的性能波动,凸显了多模态联合表征学习的艰巨性。
常用场景
经典使用场景
在多媒体语言分析领域,MMLA数据集作为一项综合性基准测试,广泛应用于评估多模态大语言模型(MLLMs)在理解人类对话高层次语义方面的能力。该数据集覆盖了意图、情感、对话行为、情感、说话风格和沟通行为六大核心维度,为研究者提供了一个标准化的测试平台,用以验证模型在复杂语义理解任务中的表现。
实际应用
MMLA数据集的实际应用场景包括智能客服、情感分析、对话系统优化等领域。通过利用该数据集的多模态特性,开发者可以训练出更具鲁棒性的模型,以应对现实世界中的复杂对话场景。例如,在心理治疗对话分析中,该数据集可以帮助模型更准确地识别患者的情绪和意图,从而提供更精准的反馈。
衍生相关工作
MMLA数据集已经催生了一系列相关研究,特别是在多模态大语言模型的优化和评估方面。例如,基于该数据集的实验结果,研究者提出了多种改进模型性能的方法,包括零样本推理、监督微调和指令调优。此外,该数据集还被用于评估如Qwen2-VL、VideoLLaMA2和LLaVA-Video等主流模型的性能,推动了多模态语言分析领域的进展。
以上内容由遇见数据集搜集并总结生成



