MELT

Name: MELT
Creator: 慕尼黑工业大学，德国
Published: 2025-05-30 19:45:36
License: 暂无描述

arXiv2025-05-30 更新2025-06-03 收录

下载链接：

https://github.com/KeiKinn/meltdataset.git

下载链接

链接失效反馈

官方服务：

资源简介：

MELT数据集是基于美剧《老友记》的多模态情绪数据集，由GPT-4o模型自动标注而成。该数据集包含来自《老友记》的对话片段，共计8821条语句，涵盖了7种情绪类别。MELT数据集的创建过程主要涉及了对话片段的筛选、GPT-4o模型的选取和提示工程设计等方面。该数据集旨在解决语音情绪识别（SER）中标注成本高、一致性差的问题，并通过主观和客观实验验证了其标注质量和模型性能的提升。

The MELT dataset is a multimodal emotion dataset based on the American TV series *Friends*, automatically annotated by the GPT-4o model. It contains 8,821 utterances from the dialogue segments of *Friends*, covering 7 emotion categories. The development of the MELT dataset mainly involves dialogue segment screening, selection of the GPT-4o model, and prompt engineering design. This dataset aims to address the challenges of high annotation cost and poor consistency in speech emotion recognition (SER), and its annotation quality and the improvement in model performance have been verified via both subjective and objective experiments.

提供机构：

慕尼黑工业大学，德国

创建时间：

2025-05-30

搜集汇总

数据集介绍

构建方式

MELT数据集的构建基于经典情景剧《Friends》的多模态情感对话数据，通过GPT-4o大语言模型实现了全自动标注流程。研究团队首先对原始MELD数据集进行筛选，剔除短于1秒的语音片段及缺乏上下文信息的角色对话，保留42个核心角色的13,708条有效语音样本。采用结构化提示工程框架，将角色台词、季节剧集等上下文信息转化为文本提示，引导GPT-4o输出包含7类基础情感（愤怒、厌恶、悲伤等）及声学特征（响度、音高等）的标准化JSON标注。通过思维链提示和交叉验证机制，确保标注结果与剧情语境的高度一致性，整个标注过程仅消耗不足10美元成本。

特点

该数据集显著特征体现在其知识嵌入式的标注范式，GPT-4o通过预训练阶段吸收的互联网文化知识，能准确捕捉剧中角色微妙的情感表达。相比传统人工标注的MELD数据集，MELT在标签分布上更趋平衡，中性情感样本占比从45.2%降至35.8%，同时愤怒与惊讶标签的转换率提升19.7%。音频特征分析显示，模型对音高识别的准确率达52.1%，显著优于响度特征39%的识别率，反映出人类语音描述偏好的知识迁移。多模态评估表明，其标注结果与人类主观评分的平均一致率达70.6%，在愤怒和惊讶等强情绪类别上表现尤为突出。

使用方法

研究者可通过HuggingFace平台获取经标准化的语音波形文件及JSON格式标注，每条数据包含原始对话文本、角色信息、剧集上下文及多维声学特征描述。在算法开发中，建议采用4:1比例划分训练测试集，配套提供基于Wav2Vec2、HuBERT等自监督模型的基准实验框架。跨数据集验证时，应注意MELT采用7类基本情感体系，与IEMOCAP等外部数据集存在标签体系差异，可通过标签映射或迁移学习解决。对于声学特征分析，开放了eGeMAPS特征提取脚本及与ParaCLAP模型的对接接口，支持细粒度语音情感特性研究。

背景与挑战

背景概述

MELT（Multimodal Emotion-Lines Dataset Labeled with LLM ContexT Knowledge）是由德国慕尼黑工业大学健康信息学主席团队于2025年提出的一个多模态情感数据集，旨在解决语音情感识别（SER）领域中人工标注成本高且一致性差的核心问题。该数据集基于情景喜剧《老友记》的对话构建，通过GPT-4o模型自动生成情感标注，首次探索了大型语言模型在无监督多模态数据标注中的应用潜力。其创新性体现在利用LLM内嵌的上下文知识，仅通过文本线索实现音频情感的精准标注，为情感计算领域提供了首个完全由AI标注的基准数据集，显著降低了传统人工标注的财务与时间成本。

当前挑战

领域挑战方面，MELT需解决多模态情感识别中语境依赖性高（如角色关系、场景背景）与主观标注差异（如文化偏好导致的标签歧义）的双重难题。构建挑战集中于：1）短语音样本（<1秒）的情感分类信噪比低；2）角色身份模糊（如‘1st Customer’类匿名角色）导致LLM上下文推理失效；3）GPT-4o的固有偏差（如对‘恐惧’和‘悲伤’情感倾向于重标注为‘中性’）影响标注质量。实验表明，尽管在‘愤怒’和‘惊喜’类别上标注一致性达70%，但低频情感（如‘厌恶’）的识别仍受限于模型的知识覆盖度。

常用场景

经典使用场景

MELT数据集在情感计算领域具有广泛的应用前景，尤其在语音情感识别（SER）任务中表现出色。该数据集通过GPT-4o自动标注，显著提升了情感标签的准确性和一致性，为研究人员提供了一个可靠的多模态情感分析基准。其经典使用场景包括训练和评估基于自监督学习（SSL）的情感识别模型，例如在电视剧《Friends》的对话数据上进行情感分类实验。MELT的标注方法不仅减少了人工标注的成本，还通过结构化提示和链式推理（CoT）确保了标签的上下文相关性。

实际应用

MELT数据集在实际应用中展现了广泛的价值。例如，在人机交互系统中，基于MELT训练的情感识别模型可以更准确地理解用户的情感状态，从而提供更自然的交互体验。此外，该数据集还可用于心理健康监测，通过分析语音情感特征辅助诊断抑郁症或焦虑症。在娱乐产业中，MELT的标注方法为自动生成影视内容的情感标签提供了新思路，有助于个性化推荐系统的开发。其低成本、高效率的标注流程也为其他多模态数据集的构建提供了可借鉴的范例。

衍生相关工作

MELT数据集的推出催生了一系列相关研究。例如，基于其标注框架，研究人员进一步探索了LLMs在多模态任务中的潜力，开发了更高效的提示工程方法。同时，MELT为语音情感识别模型的性能提升提供了数据支持，推动了如WavLM和HuBERT等自监督学习模型的优化。此外，该数据集还启发了对LLMs在情感标注中偏差问题的深入研究，促进了混合标注方法的发展。这些衍生工作不仅扩展了MELT的应用范围，也为情感计算领域的未来发展奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集