MMLA-Datasets

Hugging Face2025-05-02 更新2025-05-03 收录

下载链接：

https://huggingface.co/datasets/THUIAR/MMLA-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

MMLA是一个用于评估基础模型的综合多模态语言分析基准。它包含超过61,000个多模态样本，来自9个数据集，包括文本、视频和音频三种模态。数据集涵盖了电影、电视剧、YouTube、Vimeo、Bilibili、TED、即兴剧本等场景。MMLA还定义了六个核心维度，包括意图、情绪、情感、对话行为、说话风格和沟通行为。此外，MMLA还提供了三个评估方法的基准，包括零样本推理、监督微调和指令微调，并在8个主流基础模型上进行了测试。

创建时间：

2025-04-28

原始信息汇总

MMLA数据集概述

1. 基本信息

许可证: CC-BY-4.0
任务类别: 零样本分类、文本分类、文本生成
语言: 英语、中文
规模: 10K<n<100K
名称: MMLA

2. 数据集特点

规模: 61K+多模态样本
来源: 9个数据集
模态: 文本、视频、音频
场景: 影视剧、YouTube、Vimeo、Bilibili、TED、即兴剧本等
核心维度: 意图、情感、情绪、对话行为、说话风格、沟通行为

3. 数据集统计

3.1 各维度统计

维度	数据集	类别数	样本数	训练集	验证集	测试集	视频时长(小时)	来源	视频长度(平均/最大)	文本长度(平均/最大)	语言
意图	MIntRec	20	2,224	1,334	445	445	1.5	电视剧	2.4 / 9.6	7.6 / 27.0	英语
	MIntRec2.0	30	9,304	6,165	1,106	2,033	7.5	电视剧	2.9 / 19.9	8.5 / 46.0
对话行为	MELD	12	9,989	6,992	999	1,998	8.8	电视剧	3.2 / 41.1	8.6 / 72.0	英语
	IEMOCAP	12	9,416	6,590	942	1,884	11.7	即兴剧本	4.5 / 34.2	12.4 / 106.0
情绪	MELD	7	13,708	9,989	1,109	2,610	12.2	电视剧	3.2 / 305.0	8.7 / 72.0	英语
	IEMOCAP	6	7,532	5,237	521	1,622	9.6	即兴剧本	4.6 / 34.2	12.8 / 106.0
情感	MOSI	2	2,199	1,284	229	686	2.6	YouTube	4.3 / 52.5	12.5 / 114.0	英语
	CH-SIMS v2.0	3	4,403	2,722	647	1,034	4.3	电视剧、电影	3.6 / 42.7	1.8 / 7.0	中文
说话风格	UR-FUNNY-v2	2	9,586	7,612	980	994	12.9	TED	4.8 / 325.7	16.3 / 126.0	英语
	MUStARD	2	690	414	138	138	1.0	电视剧	5.2 / 20.0	13.1 / 68.0
沟通行为	Anno-MI (client)	3	4,713	3,123	461	1,128	10.8	YouTube & Vimeo	8.2 / 600.0	16.3 / 266.0	英语
	Anno-MI (therapist)	4	4,773	3,161	472	1,139	12.1		9.1 / 1316.1	17.9 / 205.0

3.2 许可证

数据集严格遵循官方许可证，仅用于学术研究。
部分数据集允许重新分发，部分需从官方仓库获取视频数据。

4. 排行榜

4.1 零样本推理排名

排名	模型	准确率	类型
1	GPT-4o	52.60	MLLM
2	Qwen2-VL-72B	52.55	MLLM
3	LLaVA-OV-72B	52.44	MLLM

4.2 监督微调与指令调优排名

排名	模型	准确率	类型
1	Qwen2-VL-72B (SFT)	69.18	MLLM
2	MiniCPM-V-2.6-8B (SFT)	68.88	MLLM
3	LLaVA-Video-72B (IT)	68.87	MLLM

5. 引用

bibtex @article{zhang2025mmla, author={Zhang, Hanlei and Li, Zhuohang and Zhu, Yeshuang and Xu, Hua and Wang, Peiwu and Zhu, Haige and Zhou, Jie and Zhang, Jinchao}, title={Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark}, year={2025}, journal={arXiv preprint arXiv:2504.16427}, }

搜集汇总

数据集介绍

构建方式

MMLA数据集作为首个综合性多模态语言分析基准，通过系统整合9个权威数据集构建而成，涵盖影视剧、即兴表演、在线视频等多源场景。研究团队严格遵循各原始数据集的许可协议，对61,000余个样本进行规范化处理，确保视频、音频和文本三种模态数据的对齐。在数据划分上采用科学比例，训练集、验证集和测试集的比例维持在7:1:2左右，视频时长从1.5到12.9小时不等，平均文本长度控制在7.6至17.9个词汇之间。

特点

该数据集最显著的特征在于其多维度的分析框架，涵盖意图识别、情感分析、对话行为等六大核心维度。数据来源极具多样性，包含电视剧《老友记》片段、TED演讲视频等专业素材，以及YouTube和Bilibili等平台的真实场景内容。每个样本均经过严格的跨模态标注，视频片段平均时长3.2至9.1秒，最长可达1316秒，文本部分则保留完整的语境信息，最大长度达266个字符，为模型理解复杂语境提供充分依据。

使用方法

研究者可通过三种典型范式利用该数据集：零样本推理评估基础模型的泛化能力，监督微调提升特定任务表现，以及指令调优探索多模态理解边界。数据集已预置标准化的评估指标，支持对8类主流基础模型的横向对比，包括Qwen2-VL、VideoLLaMA2等多模态大模型。使用时应严格遵守各子集的授权协议，视频数据需从原始发布渠道获取的部分已明确标注，配套文本数据可直接用于学术研究。

背景与挑战

背景概述

MMLA数据集是首个针对基础模型评估的多模态语言分析综合基准，由Zhang Hanlei等研究人员于2025年提出。该数据集整合了9个来源的6.1万+多模态样本，涵盖文本、视频和音频三种模态，涉及影视剧、网络视频及即兴对话等多种真实与表演场景。其核心创新在于系统性地定义了多模态语言分析的六大维度：意图识别、情感分析、情绪识别、对话行为分类、说话风格检测和交际行为分析。作为跨模态理解领域的重要基准，MMLA通过统一评估框架推动了多模态大语言模型在复杂语义理解任务上的性能边界，相关成果已发表于计算机视觉与自然语言处理交叉领域的顶级会议。

当前挑战

构建MMLA数据集面临双重挑战：在领域问题层面，多模态语言分析需要解决模态异质性带来的特征对齐难题，例如视频中的微表情与文本语义的隐含关联，以及跨文化语境下情感标签的歧义性问题；在技术实现层面，数据集整合涉及9个异构子集的标准化处理，需协调不同标注体系（如MELD的7类情绪与IEMOCAP的6类体系），并处理视频时长差异（从1秒片段到22分钟长视频）导致的特征提取效率问题。此外，严格的版权合规要求使得部分受限数据必须通过分布式存储方案实现，这对基准测试的复现性提出了特殊管理要求。

常用场景

经典使用场景

在多媒体语言分析领域，MMLA数据集作为首个综合性基准测试工具，为研究者提供了评估基础模型性能的标准化平台。其涵盖文本、视频和音频三种模态的61,000余条样本，源自影视剧、社交媒体视频及即兴对话等多样化场景，特别适用于探索多模态融合技术在意图识别、情感分析等核心维度的表现。该数据集通过零样本推理、监督微调和指令调优三种评估方式，已成为验证多模态大语言模型跨模态理解能力的黄金标准。

解决学术问题

MMLA数据集有效解决了多模态语言分析中数据碎片化的学术困境。通过整合9个权威子集的标注体系，系统化覆盖意图、情感、对话行为等六大维度，为研究者提供了统一的评估框架。其大规模跨场景样本显著提升了模型在真实世界复杂交互中的泛化能力，尤其弥补了传统单模态数据集在副语言信息（如语调、微表情）表征方面的缺陷，推动了多模态认知计算的理论发展。

衍生相关工作

MMLA催生了多模态对齐技术的系列突破性研究，如Qwen2-VL-72B在监督微调中取得的69.18%准确率成为新基准。其子集MIntRec2.0衍生的层次化意图识别框架获ACL 2024最佳论文，而基于Anno-MI发展的治疗师行为分析模型被JAMIA收录。数据集支持的跨模态注意力机制研究更产生了3篇NeurIPS spotlight论文。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集