five

MMLA

收藏
github2025-04-24 更新2025-04-25 收录
下载链接:
https://github.com/thuiar/MMLA
下载链接
链接失效反馈
官方服务:
资源简介:
MMLA是一个综合性的多模态语言分析基准,旨在评估基础模型在理解人类对话语义方面的能力。它包含超过61K的多模态话语,覆盖六个核心维度:意图、情感、对话行为、情感、说话风格和沟通行为。数据集来自多种来源,包括电影、电视剧、YouTube、Vimeo、Bilibili、TED等。

MMLA is a comprehensive multimodal language analysis benchmark designed to evaluate the capability of foundation models in understanding the semantics of human conversations. It contains over 61K multimodal utterances, covering six core dimensions: intent, emotion, conversational behavior, sentiment, speaking style, and communicative behavior. The dataset is sourced from diverse origins including films, TV series, YouTube, Vimeo, Bilibili, TED and more.
创建时间:
2025-04-24
原始信息汇总

MMLA 数据集概述

数据集简介

  • 名称: MMLA (Multimodal Language Analysis Benchmark)
  • 目的: 评估多模态大语言模型(MLLMs)在理解人类对话中高级语义的能力
  • 特点:
    • 包含超过61K多模态话语样本
    • 覆盖舞台和真实场景
    • 包含6个核心语义维度

核心语义维度

  1. 意图(Intent)
  2. 情感(Emotion)
  3. 对话行为(Dialogue Act)
  4. 情感倾向(Sentiment)
  5. 说话风格(Speaking Style)
  6. 交流行为(Communication Behavior)

数据来源

  • 样本数量: 61K+
  • 模态: 3种
  • 视频时长: 76.6小时
  • 来源类型:
    • 电影
    • 电视剧
    • YouTube/Vimeo/Bilibili/TED视频
    • 即兴剧本

评估数据集

维度 数据集 来源
Intent MIntRec, MIntRec2.0 ACM MM 2022, ICLR 2024
Emotion MELD, IEMOCAP ACL 2019, Language Resources and Evaluation 2008
Dialogue Act MELD-DA, IEMOCAP-DA ACL 2020
Sentiment MOSI, CH-SIMS v2.0 IEEE Intelligent Systems 2016, ICMI 2022
Speaking Style UR-FUNNY-v2, MUStARD ACL 2019
Communication Behavior Anno-MI (client/therapist) ICASSP 2022

评估模型

大语言模型(LLMs)

  1. Qwen2 (0.5B/1.5B/7B)
  2. Llama3 (8B)
  3. InternLM2.5 (7B)

多模态大语言模型(MLLMs)

  1. VideoLLaMA2 (7B)
  2. Qwen2-VL (7B/72B)
  3. LLaVA-Video (7B/72B)
  4. LLaVA-OneVision (7B/72B)
  5. MiniCPM-V-2.6 (8B)

评估方法

  1. 零样本推理(Zero-shot Inference)
  2. 监督微调(Supervised Fine-tuning)
  3. 指令微调(Instruction Tuning)

主要结果

零样本推理排名

  1. GPT-4o (52.60% ACC)
  2. Qwen2-VL-72B (52.55% ACC)
  3. LLaVA-OV-72B (52.44% ACC)

监督微调/指令微调排名

  1. Qwen2-VL-72B (SFT, 69.18% ACC)
  2. MiniCPM-V-2.6-8B (SFT, 68.88% ACC)
  3. LLaVA-Video-72B (IT, 68.87% ACC)

引用信息

bibtex @article{zhang2025mmla, author={Zhang, Hanlei and Li, Zhuohang and Zhu, Yeshuang and Xu, Hua and Wang, Peiwu and Zhu, Haige and Zhou, Jie and Zhang, Jinchao}, title={Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark}, year={2025}, journal={arXiv preprint arXiv:2504.16427}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在多媒体语言分析领域,MMLA数据集的构建采用了系统化的方法,整合了来自9个不同来源的61,000余个多模态样本,涵盖影视作品、社交媒体视频及即兴对话脚本等多种场景。研究团队通过精心设计的标注框架,对这些样本在意图、情感、对话行为等六个核心语义维度上进行多层次标注,确保数据覆盖认知层面的复杂语义特征。数据采集过程兼顾了表演性场景和真实世界对话的平衡,并采用严格的质控流程验证标注一致性。
特点
作为多模态语言分析领域的前沿数据集,MMLA最显著的特点是其在语义维度上的全面覆盖。该数据集不仅包含传统的情绪和情感分析维度,还创新性地纳入了说话风格、沟通行为等细粒度语义特征。多模态特性体现在同时整合文本、视觉和听觉三种数据模态,其中视觉模态包含76.6小时的视频素材。数据集特别强调认知级语义的理解挑战,其样本复杂度体现在跨模态语义关联和隐含意图的深层解析需求上。
使用方法
MMLA数据集支持三种主流的模型评估范式:零样本推理可直接测试模型的先天语义理解能力;监督微调适用于特定任务的性能优化;指令微调则能检验模型遵循复杂语义指令的能力。研究人员可通过加载标准化的数据分割方案,使用配套的评估脚本来量化模型在六个维度上的表现。数据集特别设计了跨模态对齐接口,便于提取协调的文本-视觉-听觉特征,为多模态联合建模提供技术支持。
背景与挑战
背景概述
MMLA(多模态语言分析)数据集是2025年由Zhang Hanlei等学者提出的综合性基准测试,旨在探索多模态大语言模型(MLLMs)在理解人类对话高阶语义方面的潜力。该数据集整合了来自9个子集的61,000余条多模态话语数据,涵盖影视、社交媒体及即兴对话等多种真实与模拟场景,聚焦意图识别、情感分析、对话行为等六类核心语义维度。作为首个系统评估MLLMs认知级语义理解能力的资源,MMLA通过零样本推理、监督微调和指令调优三种范式对8类主流模型进行评测,揭示了现有模型在复杂语义解析上的显著局限(最高准确率仅70%),为多模态自然语言处理领域提供了关键的研究基线与改进方向。
当前挑战
MMLA数据集面临双重挑战:在领域问题层面,多模态语义理解的复杂性远超单模态任务,模型需同步处理文本、音频、视频的异构特征及其动态交互,现有方法对隐含意图、讽刺语气等抽象语义的捕捉效率不足;在构建过程中,跨数据集标注标准不统一(如情感标签的离散/连续差异)、多模态对齐噪声(如音画不同步)、以及真实场景数据的隐私与版权问题,均对数据质量与规模扩展形成制约。实验表明,即便是微调后的顶尖模型在沟通行为识别等细粒度任务上仍存在15%以上的性能波动,凸显了多模态联合表征学习的艰巨性。
常用场景
经典使用场景
在多媒体语言分析领域,MMLA数据集作为一项综合性基准测试,广泛应用于评估多模态大语言模型(MLLMs)在理解人类对话高层次语义方面的能力。该数据集覆盖了意图、情感、对话行为、情感、说话风格和沟通行为六大核心维度,为研究者提供了一个标准化的测试平台,用以验证模型在复杂语义理解任务中的表现。
实际应用
MMLA数据集的实际应用场景包括智能客服、情感分析、对话系统优化等领域。通过利用该数据集的多模态特性,开发者可以训练出更具鲁棒性的模型,以应对现实世界中的复杂对话场景。例如,在心理治疗对话分析中,该数据集可以帮助模型更准确地识别患者的情绪和意图,从而提供更精准的反馈。
衍生相关工作
MMLA数据集已经催生了一系列相关研究,特别是在多模态大语言模型的优化和评估方面。例如,基于该数据集的实验结果,研究者提出了多种改进模型性能的方法,包括零样本推理、监督微调和指令调优。此外,该数据集还被用于评估如Qwen2-VL、VideoLLaMA2和LLaVA-Video等主流模型的性能,推动了多模态语言分析领域的进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作