Mandarin Chinese Emotional Speech Dataset - Portrayed (MES-P)

Name: Mandarin Chinese Emotional Speech Dataset - Portrayed (MES-P)
Creator: 苏州大学光电科学与工程学院
Published: 2018-10-16 16:42:41
License: 暂无描述

arXiv2018-10-16 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1808.10095v2

下载链接

链接失效反馈

官方服务：

资源简介：

MES-P是一个专门为研究普通话情感语音而设计的数据集，由苏州大学光电科学与工程学院的研究人员创建。该数据集包含5376条情感语音样本，涵盖了喜悦、愤怒和悲伤三种情感的温和与强烈版本，以及中性语音。MES-P的独特之处在于它不仅记录了听众感知的情感（近端标签），还记录了说话者意图表达的情感（远端标签），从而使得研究人类情感智能成为可能。数据集的创建过程中，说话者被要求根据预定义的文本脚本朗读，以确保语音样本的情感表达与日常普通话的音调分布相匹配。此外，MES-P还捕捉了情感强度的变化，为情感识别和理解提供了丰富的资源。该数据集的应用领域包括人机交互、多媒体索引和情感监控等。

MES-P is a dataset specifically designed for research on Mandarin emotional speech, created by researchers from the School of Optoelectronic Science and Engineering of Soochow University. This dataset contains 5376 emotional speech samples, covering mild and intense versions of three emotions: joy, anger, and sadness, as well as neutral speech. What makes MES-P unique is that it not only records the emotions perceived by listeners (proximal labels) but also the emotions that speakers intend to express (distal labels), thus enabling research on human emotional intelligence. During the dataset creation process, speakers were asked to read aloud based on predefined text scripts to ensure that the emotional expressions of the speech samples match the pitch distribution of daily Mandarin. In addition, MES-P also captures changes in emotional intensity, providing rich resources for emotion recognition and understanding. The application fields of this dataset include human-computer interaction, multimedia indexing, emotional monitoring, and so on.

提供机构：

苏州大学光电科学与工程学院

创建时间：

2018-08-30

搜集汇总

数据集介绍

构建方式

MES-P数据集通过招募16名非专业演员（8男8女）在安静教室中录制情感语音样本。每位演员需使用精心设计的16句脚本（涵盖普通话所有声调、元音和辅音类型）朗读7种情感状态（中性、适度与强烈的喜悦、愤怒、悲伤），每个句子每种情感重复3轮（按句子遍历情感、按情感遍历句子、随机顺序），共产生5376个样本。录制后，7名独立评分者在效价-唤醒二维空间中对样本进行连续坐标标注，作为近端标签，而演员的原始情感意图则作为远端标签，所有样本均保留以反映真实情感表达差异。

特点

MES-P是首个同时包含远端（说话者意图）和近端（听者感知）标签的情感语音数据集，用于研究情感智力与误解。其脚本声调分布与日常普通话使用一致，确保音调语言特性。数据集包含情感强度变化（适度和强烈版本），并在二维效价-唤醒空间中呈现连续情感分布。通过SCL-90心理筛查确保参与者的情感表达与感知能力正常，Cohen's Kappa系数显示评分者与说话者间具有高度一致性（平均0.84）。

使用方法

研究者可使用MES-P进行多种任务：基于远端标签训练情感识别模型，或利用近端标签评估人类情感感知能力。数据集支持4类（中性+强烈情感）与7类（含强度区分）分类任务，并提供INTERSPEECH 2013基线特征集与SVM分类器性能基准。通过留一说话者交叉验证，可对比机器与人类在情感表达（远端-近端）和感知（近端-远端）上的差异，从而量化情感误解现象。

背景与挑战

背景概述

情感在人际沟通与智能交互中扮演着核心角色，其自动分析为人机界面、多媒体索引等领域提供了重要支撑。然而，现有情感语音数据集多聚焦于感知情感，忽略了说话者意图与听者感知之间的差异，且对声调语言中语调与情感交互的探讨尚显不足。在此背景下，由苏州大学、清华大学及法国里昂中央理工学院等机构的研究人员于2018年共同创建的Mandarin Chinese Emotional Speech Dataset - Portrayed（MES-P）应运而生。该数据集首次同时记录了远端标签（说话者意图情感）与近端标签（听者感知情感），并涵盖了普通话中真实语调分布及情感强度变化，为研究情感误解、情感表达能力及感知技能提供了独特资源，对情感计算领域产生了深远影响。

当前挑战

MES-P数据集面临的挑战主要体现在两方面。其一，在领域问题层面，现有情感识别方法多基于感知标签，难以捕捉说话者意图与听者感知间的分歧，而MES-P通过引入远端与近端标签，需解决如何利用双标签量化情感误解、评估个体情感智力（如表达与理解能力）的难题。其二，在构建过程中，挑战包括：非专业演员需在严格受控条件下表达七种情感状态（含中度和强烈版本），以确保情感意图的可靠性；语音脚本需覆盖普通话所有声调、元音及辅音，并匹配真实口语的声调分布；此外，需通过七名评分者在效价-唤醒度二维空间中对样本进行连续标注，并验证评分者间的一致性，同时避免因情感强度差异导致的误判，最终实现情感表达与感知差异的系统性分析。

常用场景

经典使用场景

在情感计算与语音交互领域，MES-P数据集最经典的使用场景是作为普通话情感语音识别与分析的基准资源。研究者可基于其提供的7种情感状态（中性、喜悦、愤怒、悲伤及其强度变化）构建分类模型，尤其适用于探索声调语言中音调与情感韵律的交互机制。该数据集通过严格遵循真实口语中四声分布的设计，为分析不同声调在情感表达下的基频轮廓变形提供了独特视角，从而弥补了现有情感语音库在声调覆盖上的不足。

衍生相关工作

MES-P数据集衍生了一系列关于跨语料情感识别与情感智力建模的经典工作。研究者基于其独特的双标签结构，提出了对比说话者表达准确性与听者感知敏感性的评估框架，并利用Cohen's Kappa系数揭示了不同情感类别（如悲伤）在沟通中的易混淆性。此外，该数据集催生了针对声调语言的情感韵律分析研究，例如探索声调与情感在基频轨迹上的非线性叠加效应，以及基于VA空间连续标注的情感分布模式，为后续细粒度情感建模奠定了方法论基础。

数据集最近研究