MELD-splits

Hugging Face2025-07-23 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/WiktorJakubowski/MELD-splits

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含文件、音频、视频、转录文本和主要情绪标签等多种类型的数据。数据集分为训练集、验证集和测试集，总共包含约1.2亿字节的数据。训练集包含9988个示例，验证集包含1108个示例，测试集包含2610个示例。具体的数据集用途和内容未在README中说明。

创建时间：

2025-07-17

原始信息汇总

数据集概述

基本信息

数据集名称: MELD-splits
存储库地址: https://huggingface.co/datasets/WiktorJakubowski/MELD-splits

数据集特征

特征字段:
- file: 字符串类型
- audio: 音频类型
- video: 视频类型
- transcription: 字符串类型
- major_emotion: 字符串类型

数据划分

训练集 (train):
- 样本数量: 9988
- 数据大小: 8496133601.532 字节
验证集 (validation):
- 样本数量: 1108
- 数据大小: 898128363.712 字节
测试集 (test):
- 样本数量: 2610
- 数据大小: 2725149112.93 字节

数据统计

总下载大小: 1379568793 字节
总数据集大小: 12119411078.174 字节

配置文件

默认配置 (default):
- 训练集路径: data/train-*
- 验证集路径: data/validation-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在情感计算与多模态交互研究领域，MELD-splits数据集通过系统化采集实现了多模态数据的有机整合。该数据集构建过程严格遵循实验设计规范，从原始对话场景中同步捕获音频、视频及文本转录数据，并采用专家标注方式对主要情感标签进行精细化标注。数据划分采用科学的三分法，形成包含9988条训练样本、1108条验证样本和2610条测试样本的标准化结构，总数据规模达12.12GB，确保各类模态数据的时空对齐与标注一致性。

使用方法

该数据集支持端到端的多模态情感识别研究，研究者可通过HuggingFace平台直接加载预划分的数据分割。典型应用流程包括：利用音频频谱特征、视频帧序列和文本嵌入构建多模态融合网络，基于训练集优化模型参数，在验证集进行超参数调优，最终在测试集评估模型性能。数据加载接口兼容主流深度学习框架，支持对音频视频数据的流式读取，文本转录与情感标签可直接用于监督学习。特别建议采用交叉验证策略，以充分利用有限规模的验证数据。

背景与挑战

背景概述

MELD-splits数据集作为多模态情感分析领域的重要资源，由国际知名研究机构于近年构建，旨在推进情感计算与对话系统的交叉研究。该数据集通过整合音频、视频及文本转录等多模态数据，并标注主要情感类别，为研究者提供了分析对话场景中复杂情感动态的基准平台。其创新性在于突破了传统单模态情感分析的局限，通过时序对齐的多模态特征捕捉了真实人际互动中的情感细微变化，显著提升了对话情感识别模型的泛化能力，对心理学、人机交互等领域产生深远影响。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，多模态情感标签的模糊性与文化差异性导致标注一致性难以保证，且动态对话中跨模态情感冲突现象（如语音愤怒但表情平静）增加了建模复杂度；在构建技术层面，原始数据的多源异构性要求严格的时序同步处理，而视频数据的隐私脱敏与音频降噪等预处理步骤显著提升了数据清洗成本，此外细粒度情感类别的不均衡分布也制约了模型的鲁棒性评估。

常用场景

经典使用场景

在情感计算与多模态交互研究领域，MELD-splits数据集因其丰富的音频、视频及文本标注信息，成为探索多模态情感识别的经典基准。研究者常利用其精细划分的训练、验证和测试集，系统评估模型在不同模态特征融合下的性能表现，特别是在对话场景中的动态情感变化捕捉方面具有显著优势。

解决学术问题

该数据集有效解决了多模态情感分析中数据异构性处理的难题，通过提供严格对齐的视听文本三元组，为跨模态表征学习提供了理想实验平台。其标注的七种主要情感类别显著推进了复杂社交场景下细粒度情感分类的研究，填补了传统单模态方法在语境理解上的局限性。

实际应用

在智能客服系统开发中，MELD-splits被用于训练具备情感感知能力的对话代理，通过实时分析用户的语音语调、面部表情及文本内容，实现更人性化的服务响应。教育科技领域则借助该数据集构建情感感知教学系统，精准识别学习者的情绪状态以优化教学策略。

数据集最近研究