MMLA
收藏arXiv2025-04-24 更新2025-04-25 收录
下载链接:
https://github.com/thuiar/MMLA
下载链接
链接失效反馈官方服务:
资源简介:
MMLA是一个全面的基准测试,旨在评估多模态大语言模型(MLLM)在理解人类对话中认知层面语义的能力。该数据集包含超过61,000条多模态话语,来自舞台和现实世界场景,涵盖了六个核心的多模态语义维度:意图、情感、对话行为、情绪、说话风格和交流行为。MMLA数据集通过零样本推理、监督微调和指令调优三种方法评估了八种主流的LLM和MLLM模型。实验结果表明,即使是经过微调的模型,也只能达到约60%∼70%的准确率,突显了当前MLLM在理解复杂人类语言方面的局限性。MMLA将为探索大型语言模型在多模态语言分析方面的潜力提供坚实的基础,并为推动该领域的发展提供宝贵的资源。
MMLA is a comprehensive benchmark designed to evaluate the capability of Multimodal Large Language Models (MLLMs) in understanding cognitive-level semantics in human conversations. This dataset contains over 61,000 multimodal utterances sourced from both stage and real-world scenarios, covering six core multimodal semantic dimensions: intention, sentiment, conversational act, emotion, speaking style, and communicative behavior. The MMLA benchmark evaluates eight mainstream LLM and MLLM models via three assessment approaches: zero-shot inference, supervised fine-tuning, and instruction tuning. Experimental results show that even fine-tuned models can only achieve an accuracy of approximately 60% to 70%, highlighting the current limitations of MLLMs in comprehending complex human language. MMLA will provide a solid foundation for exploring the potential of large language models in multimodal language analysis, as well as a valuable resource for advancing the development of this field.
提供机构:
清华大学计算机科学与技术系, 微信AI模式识别中心, 腾讯公司, 中国肯尼索州立大学
创建时间:
2025-04-23
原始信息汇总
MMLA 数据集概述
数据集简介
- 名称: MMLA (Multimodal Language Analysis Benchmark)
- 目的: 评估多模态大语言模型(MLLMs)在理解人类对话中高级语义的能力
- 特点: 包含超过61K多模态话语样本,涵盖6个核心语义维度
- 论文: Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
核心特点
- 数据来源: 9个数据集,61K+样本,3种模态,76.6个视频
- 场景类型: 影视作品、电视剧、YouTube、Vimeo、Bilibili、TED、即兴剧本等
- 语义维度:
- 意图(Intent)
- 情感(Emotion)
- 情感倾向(Sentiment)
- 对话行为(Dialogue Act)
- 说话风格(Speaking Style)
- 交流行为(Communication Behavior)
评估方法
- 零样本推理(Zero-shot Inference)
- 监督微调(Supervised Fine-tuning)
- 指令微调(Instruction Tuning)
评估模型
多模态大语言模型(MLLMs)
- Qwen2-VL
- VideoLLaMA2
- LLaVA-Video
- LLaVA-OV
- MiniCPM-V-2.6
大语言模型(LLMs)
- InternLM2.5
- Qwen2
- LLaMA3
评估结果
零样本推理排名
- GPT-4o (52.60% ACC)
- Qwen2-VL-72B (52.55% ACC)
- LLaVA-OV-72B (52.44% ACC)
监督微调排名
- Qwen2-VL-72B (69.18% ACC)
- MiniCPM-V-2.6-8B (68.88% ACC)
- LLaVA-Video-72B (68.87% ACC)
数据组成
| 维度 | 数据集 | 来源 |
|---|---|---|
| 意图 | MIntRec | ACM MM 2022 |
| 意图 | MIntRec2.0 | ICLR 2024 |
| 情感 | MELD | ACL 2019 |
| 情感 | IEMOCAP | Language Resources and Evaluation 2008 |
| 对话行为 | MELD-DA | ACL 2020 |
| 对话行为 | IEMOCAP-DA | ACL 2020 |
| 情感倾向 | MOSI | IEEE Intelligent Systems 2016 |
| 情感倾向 | CH-SIMS v2.0 | ICMI 2022 |
| 说话风格 | UR-FUNNY-v2 | ACL 2019 |
| 说话风格 | MUStARD | ACL 2019 |
| 交流行为 | Anno-MI (client) | ICASSP 2022 |
| 交流行为 | Anno-MI (therapist) | ICASSP 2022 |
引用
bibtex @article{zhang2025mmla, author={Zhang, Hanlei and Li, Zhuohang and Zhu, Yeshuang and Xu, Hua and Wang, Peiwu and Zhu, Haige and Zhou, Jie and Zhang, Jinchao}, title={Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark}, year={2025}, journal={arXiv preprint arXiv:2504.16427}, }
搜集汇总
数据集介绍

构建方式
MMLA数据集通过整合九个公开可用的多模态语言数据集构建而成,涵盖了61,016个高质量的多模态样本,总计76.6小时的视频内容。这些数据源自多种场景,包括电视剧、电影、在线视频分享平台(如YouTube、Vimeo、Bilibili)、TED演讲以及脚本化的对话会话。数据集经过严格的清洗和校正,确保转录文本、原始视频和音频数据的对齐,从而保证数据质量。每个样本包含文本、视频和音频三种模态,覆盖了意图、情感、对话行为、情绪、说话风格和沟通行为六个核心维度。
特点
MMLA数据集的特点在于其全面性和多样性。它不仅覆盖了多种语言(英语和汉语),还包含了从舞台场景到真实世界的多种数据来源。数据集中的六个核心维度(意图、情感、对话行为、情绪、说话风格和沟通行为)为多模态语言分析提供了丰富的语义层次。此外,数据集还包含了详细的标注质量保证措施,例如通过多数投票和Fleiss's kappa等统计方法确保标注的一致性。
使用方法
MMLA数据集的使用方法包括零样本推理、监督微调和指令调优三种策略。在零样本推理中,模型通过任务特定的提示生成预测;监督微调则利用标注数据优化模型的指令遵循能力;指令调优则通过统一模型处理多个任务。数据集支持多种评估指标(如准确率、加权F1分数等),并提供了详细的实验设置和超参数配置,确保实验的可重复性。用户可以通过GitHub获取数据集和代码,并遵循相应的许可协议使用。
背景与挑战
背景概述
MMLA(Multimodal Language Analysis)数据集是由清华大学和腾讯微信AI团队于2025年提出的综合性多模态语言分析基准。该数据集包含来自真实场景和模拟场景的61,000多条多模态话语,覆盖意图、情感、对话行为、情绪、说话风格和沟通行为等六个核心语义维度。MMLA旨在评估多模态大语言模型(MLLMs)在理解人类高层次认知语义方面的能力,填补了现有研究在复杂多模态语言分析领域的空白。
当前挑战
MMLA数据集面临的挑战主要包括两个方面:1) 领域问题的挑战:该数据集旨在解决多模态语言分析中的高层次语义理解问题,如意图识别、情感分析等,这些任务需要模型能够综合理解文本、音频和视频等多种模态的信息,并捕捉其间的复杂关联。2) 构建过程中的挑战:数据集的构建涉及多种模态的数据对齐和质量控制,需要确保不同模态(如文本、音频、视频)之间的同步性和一致性;此外,标注高层次语义(如意图、情感等)需要专业知识,且不同标注者之间的一致性难以保证。
常用场景
经典使用场景
MMLA数据集在自然语言处理领域被广泛用于评估多模态大语言模型(MLLMs)在理解人类对话中的高级语义方面的能力。该数据集包含超过61K的多模态话语,涵盖了意图、情感、对话行为、情绪、说话风格和沟通行为等六个核心维度。研究者通常使用零样本推理、监督微调和指令调优三种方法来评估模型在这些维度上的表现。
解决学术问题
MMLA数据集解决了当前多模态语言分析领域中的一个关键问题:即如何评估模型在理解复杂人类语言中的认知级语义的能力。通过提供涵盖多个语义维度的多样化数据,MMLA为研究者提供了一个全面的基准,用于测试和比较不同模型在理解意图、情感和其他高级语义任务上的表现。该数据集的引入填补了现有基准在评估高维语义理解能力上的空白。
衍生相关工作
MMLA数据集已经衍生出多项经典研究工作,包括MIntRec和MIntRec2.0等意图识别数据集,以及MELD和IEMOCAP等情感分析数据集。这些工作进一步扩展了多模态语言分析的应用范围,并为后续研究提供了丰富的资源。此外,基于MMLA的评估方法也被广泛应用于其他多模态任务,如视频内容分析和常识推理等。
以上内容由遇见数据集搜集并总结生成



