somosnlp-hackathon-2022/MESD
收藏Hugging Face2022-03-25 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2022/MESD
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
Duville, Mathilde Marie; Alonso-Valerdi, Luz Maria; Ibarra, David (2022), “Mexican Emotional Speech Database (MESD)”, Mendeley Data, V5, doi: 10.17632/cy34mh68j9.5
---
# Dataset Card for MESD
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-instances)
- [Data Splits](#data-instances)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
## Dataset Description
- **Homepage:** https://data.mendeley.com/datasets/cy34mh68j9/5
- **Repository:** [Needs More Information]
- **Paper:** [Needs More Information]
- **Leaderboard:** [Needs More Information]
- **Point of Contact:** [Needs More Information]
### Dataset Summary
Contiene los datos de la base MESD procesados para hacer 'finetuning' de un modelo 'Wav2Vec' en el Hackaton organizado por 'Somos NLP'.
Ejemplo de referencia:
https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/audio_classification.ipynb
Hemos accedido a la base MESD para obtener ejemplos.
Breve descripción de los autores de la base MESD:
"La Base de Datos del Discurso Emocional Mexicano (MESD en inglés) proporciona enunciados de una sola palabra para las prosodias afectivas de ira, asco, miedo, felicidad, neutro y tristeza con conformación cultural mexicana. El MESD ha sido pronunciado por actores adultos y niños no profesionales: Se dispone de 3 voces femeninas, 2 masculinas y 6 infantiles. Las palabras de los enunciados emocionales y neutros proceden de dos corpus: (corpus A) compuesto por sustantivos y adjetivos que se repiten a través de prosodias emocionales y tipos de voz (femenina, masculina, infantil), y (corpus B) que consiste en palabras controladas por edad de adquisición, frecuencia de uso, familiaridad, concreción, valencia, excitación y clasificaciones de dimensionalidad de emociones discretas.
Las grabaciones de audio se realizaron en un estudio profesional con los siguientes materiales (1) un micrófono Sennheiser e835 con una respuesta de frecuencia plana (100 Hz a 10 kHz), (2) una interfaz de audio Focusrite Scarlett 2i4 conectada al micrófono con un cable XLR y al ordenador, y (3) la estación de trabajo de audio digital REAPER (Rapid Environment for Audio Production, Engineering, and Recording). Los archivos de audio se almacenaron como una secuencia de 24 bits con una frecuencia de muestreo de 48000Hz. La amplitud de las formas de onda acústicas se reescaló entre -1 y 1.
Se crearon dos versiones con reducción de la naturalidad de los locutores a partir de expresiones emocionales humanas para voces femeninas del corpus B. En concreto, la naturalidad se redujo progresivamente de las voces humanas al nivel 1 al nivel 2. En particular, se editaron la duración y el tono medio en las sílabas acentuadas para reducir la diferencia entre las sílabas acentuadas y las no acentuadas. En los enunciados completos, se redujeron las relaciones F2/F1 y F3/F1 editando las frecuencias F2 y F3. También se redujo la intensidad de los armónicos 1 y 4. "
### Supported Tasks and Leaderboards
[Needs More Information]
### Languages
Español
## Dataset Structure
### Data Instances
[Needs More Information]
### Data Fields
Origen: texto que indica si se trata del conjunto de datos MESD original o los casos 'Speaker-embedded naturalness-reduced female voices' donde los autores han generado de forma sintética nuevos datos transformando algunas de las instancias de los audios originales.
Palabra: texto de la palabra que se ha leído.
Emoción: texto de la emoción a la que representa: Valores: 'Enojo', 'Felicidad', 'Miedo', 'Neutral', 'Disgusto', 'Tristeza'.
InfoActor: texto que indica si la voz es de 'Niño', 'Hombre', 'Mujer'.
AudioArray: audio array, remuestreado a 16 Khz.
### Data Splits
Train: 891 ejemplos, mezcla de casos MESD y 'Speaker-embedded naturalness-reduced female voices'.
Validation: 130 ejemplos, todos casos MESD.
Test: 129 ejemplos, todos casos MESD.
## Dataset Creation
### Curation Rationale
Unir los tres subconjuntos de datos y procesarlos para la tarea de finetuning, acorde al input esperado por el modelo Wav2Vec.
### Source Data
#### Initial Data Collection and Normalization
Acceso a los datos en bruto:
https://data.mendeley.com/datasets/cy34mh68j9/5
Conversión a audio arra y remuestreo a 16 Khz.
#### Who are the source language producers?
Duville, Mathilde Marie; Alonso-Valerdi, Luz Maria; Ibarra, David (2022), “Mexican Emotional Speech Database (MESD)”, Mendeley Data, V5, doi: 10.17632/cy34mh68j9.5
### Annotations
#### Annotation process
[Needs More Information]
#### Who are the annotators?
[Needs More Information]
### Personal and Sensitive Information
[Needs More Information]
## Considerations for Using the Data
### Social Impact of Dataset
[Needs More Information]
### Discussion of Biases
[Needs More Information]
### Other Known Limitations
[Needs More Information]
## Additional Information
### Dataset Curators
[Needs More Information]
### Licensing Information
Creative Commons, [CC-BY-4.0](https://creativecommons.org/licenses/by/4.0/)
### Citation Information
```
Duville, Mathilde Marie; Alonso-Valerdi, Luz Maria; Ibarra, David (2022), “Mexican Emotional Speech Database (MESD)”, Mendeley Data, V5, doi: 10.17632/cy34mh68j9.5
```
提供机构:
somosnlp-hackathon-2022
原始信息汇总
数据集概述
数据集名称
- 名称: Mexican Emotional Speech Database (MESD)
- 版本: V5
数据集描述
- 摘要: 包含MESD数据库的数据,用于在Somos NLP组织的Hackaton中对Wav2Vec模型进行微调。
- 语言: 西班牙语
- 数据结构:
- 数据实例: 包含891个训练实例,130个验证实例和129个测试实例。
- 数据字段:
- Origen: 指示数据是否来自原始MESD或Speaker-embedded naturalness-reduced female voices。
- Palabra: 读取的单词文本。
- Emoción: 表示的情感,值包括Enojo, Felicidad, Miedo, Neutral, Disgusto, Tristeza。
- InfoActor: 指示声音是Niño, Hombre, Mujer。
- AudioArray: 音频数组,重采样至16 KHz。
数据集创建
- 采集与标准化: 原始数据来自MESD数据库,音频转换为数组并重采样至16 KHz。
- 数据来源: Duville, Mathilde Marie; Alonso-Valerdi, Luz Maria; Ibarra, David (2022)。
许可证信息
- 许可证: Creative Commons Attribution 4.0 International (CC-BY-4.0)
引用信息
Duville, Mathilde Marie; Alonso-Valerdi, Luz Maria; Ibarra, David (2022), “Mexican Emotional Speech Database (MESD)”, Mendeley Data, V5, doi: 10.17632/cy34mh68j9.5
搜集汇总
数据集介绍

构建方式
在情感计算领域,墨西哥情感语音数据库(MESD)的构建体现了严谨的学术规范。该数据集源自专业录音室环境,采用Sennheiser e835麦克风与Focusrite Scarlett 2i4音频接口,以24位深度和48kHz采样率捕捉原始语音波形。数据采集涵盖成年非专业演员与儿童发音者,通过两个语料库设计:语料库A包含跨情感韵律与嗓音类型重复的名词形容词,语料库B则采用受年龄习得、使用频率及情感维度控制的词汇。研究者进一步通过编辑音节时长、基频及共振峰关系,生成了自然度递减的女性语音变体,最终形成包含原始数据与合成变体的多层次语音资源。
特点
该数据集在跨文化情感语音研究中具有独特价值,其核心特征在于融合了墨西哥文化背景下的情感表达范式。数据涵盖愤怒、厌恶、恐惧、快乐、中性及悲伤六类离散情感,发音者群体包含女性、男性及儿童嗓音类型,实现了人口统计学维度的多样性。尤为突出的是,数据集通过声学参数的系统性调整,创造了自然度梯度下降的合成语音样本,为探究情感感知与声学特征关联提供了可控实验条件。所有音频均经过振幅归一化与16kHz重采样处理,确保了与主流语音模型的兼容性。
使用方法
该数据集专为语音情感识别模型的微调任务设计,尤其适配Wav2Vec等自监督语音架构。使用者可通过加载标准化分割的训练集、验证集与测试集直接进行模型训练,其中训练集融合了原始MESD样本与自然度递减的合成变体,验证集与测试集则完全采用原始数据以确保评估一致性。数据字段包含语音来源标识、文本转录、情感标签、发音者类型及重采样后的音频数组,支持端到端的情感分类流水线构建。研究人员可依据该数据集的层次化结构,开展跨嗓音类型的情感泛化能力分析或声学特征可解释性研究。
背景与挑战
背景概述
在语音情感识别领域,墨西哥情感语音数据库(MESD)于2022年由Mathilde Marie Duville、Luz Maria Alonso-Valerdi和David Ibarra等研究人员共同创建,旨在提供具有墨西哥文化背景的语音情感数据。该数据库聚焦于六种基本情感——愤怒、厌恶、恐惧、快乐、中立和悲伤,通过专业演员和非专业儿童录制单词语音,涵盖了女性、男性和儿童三种声音类型。其核心研究问题在于探索文化特定性对情感语音表达的影响,并为跨文化情感计算研究提供重要资源,推动了语音情感识别模型在多样化语言和文化环境下的适应性与泛化能力。
当前挑战
MESD数据集在解决语音情感识别领域问题时,面临情感标注一致性与跨文化泛化性等挑战,不同文化背景下情感表达的细微差异可能影响模型性能。在构建过程中,数据采集需在专业录音环境下确保音频质量,同时处理儿童与非专业演员录音的变异性;此外,创建降低自然度的合成版本时,需精细调整音高、时长和谐波特征以平衡真实性与可控性,这些技术难点增加了数据集的复杂性与构建难度。
常用场景
经典使用场景
在语音情感识别领域,墨西哥情感语音数据库(MESD)为研究者提供了宝贵的资源,其经典使用场景在于对预训练语音模型进行微调。该数据集包含愤怒、厌恶、恐惧、快乐、中性和悲伤六种情感类别的单词语音样本,并涵盖了女性、男性和儿童等多种说话者类型。通过利用这些经过专业录音和标注的音频数据,研究人员能够训练和优化如Wav2Vec等先进模型,以提升其在跨文化情感语音分析任务中的性能。
解决学术问题
MESD数据库的构建有效应对了情感计算研究中长期存在的文化特异性数据稀缺问题。传统情感语音数据集多集中于英语或少数主流语言,缺乏对墨西哥西班牙语及其文化背景下情感表达的覆盖。该数据集通过提供文化适配的情感语音样本,支持了跨语言情感识别模型的公平性评估与偏差分析,促进了语音情感识别领域在多样性和包容性方向的发展,为探索情感表达的普适性与文化依赖性奠定了数据基础。
衍生相关工作
围绕MESD数据库,已衍生出多项经典研究工作,特别是在低资源语言情感识别与模型鲁棒性增强方面。研究者利用该数据集对Wav2Vec等自监督语音表示模型进行微调,探索了跨说话者、跨年龄组的情感分类性能。此外,针对数据集中包含的‘说话者嵌入自然度降低’版本,相关研究深入分析了语音声学特征(如时长、基频、共振峰)的编辑对情感感知与模型泛化能力的影响,推动了合成语音情感自然度与模型适应性的联合优化。
以上内容由遇见数据集搜集并总结生成



