EdwardLin2023/AESDD

Name: EdwardLin2023/AESDD
Creator: EdwardLin2023
Published: 2023-04-18 09:20:07
License: 暂无描述

Hugging Face2023-04-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/EdwardLin2023/AESDD

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 --- # Acted Emotional Speech Dynamic Database v1.0 ## ABOUT AESDD v1.0 was created on October 2017 in the Laboratory of Electronic Media, School of Journalism and Mass Communications, Aristotle University of Thessaloniki, for the needs of Speech Emotion Recognition research of the Multidisciplinary Media & Mediated Communication Research Group (M3C, http://m3c.web.auth.gr/). It is a collection of utterances of emotional speech acted by professional actors. This version is the initial state of AESDD. The purpose of this project the continuous growth of the database through the collaborative effort of the M3C research group and theatrical teams. ## CREATION OF THE DATABASE For the creation of v.1 of the database, 5 (3 female and 2 male) professional actors were recorded. 19 utterances of ambiguous out of context emotional content were chosen. The actors acted these 19 utterances in every one of the 5 chosen emotions. One extra improvised utterance was added for every actor and emotion. The guidance of the actors and the choice of the final recordings were supervised by a scientific expert in dramatology. For some of the utterances, more that one takes were qualified. Consequently, around 500 utterances occured in the final database. UPDATE: Since the AESDD is dynamic by definition, more actors have been recorded and added, following the same naming scheme as described in the Section "ORGANISING THE DATABASE" ## CHOSEN EMOTIONS Five emotions were chosen: 1. a (anger) 2. d (disgust) 3. f (fear) 4. h (happiness) 5. s (sadness) ## ORGANISING THE DATABASE There are five folders, named after the five emotion classes. Every file name in the databased is in the following form: xAA (B) where - x is the first letter of the emotion (a--> anger, h--> happiness etc.) - AA is the number of the utterance (01,02...20) - B is the number of the speaker (1 --> 1st speaker, 2 --> 2nd speaker etc) e.g. 'a03 (4).wav' is the 3rd utterance spoken by the 4th speaker with anger In the case where two takes were qualified for the same utterance, they are distinguished with a lower case letter. e.g. 'f18 (5).wav' and 'f18 (5)b.wav' are two different versions of the 5th actor saying the 18th utterance with fear. ## References 1. Vryzas, N., Kotsakis, R., Liatsou, A., Dimoulas, C. A., & Kalliris, G. (2018). Speech emotion recognition for performance interaction. Journal of the Audio Engineering Society, 66(6), 457-467. 2. Vryzas, N., Matsiola, M., Kotsakis, R., Dimoulas, C., & Kalliris, G. (2018, September). Subjective Evaluation of a Speech Emotion Recognition Interaction Framework. In Proceedings of the Audio Mostly 2018 on Sound in Immersion and Emotion (p. 34). ACM.

--- 许可证：CC BY 4.0 --- # 表演式情感语音动态数据库v1.0（Acted Emotional Speech Dynamic Database v1.0） ## 关于本数据集表演式情感语音动态数据库v1.0（下文简称AESDD v1.0）于2017年10月由塞萨洛尼基亚里士多德大学新闻与传播学院电子媒体实验室创建，旨在满足多学科媒体与媒介传播研究小组（Multidisciplinary Media & Mediated Communication Research Group，简称M3C，http://m3c.web.auth.gr/）的语音情感识别研究需求。该数据集收录了专业演员演绎的情感语音语句，此版本为AESDD的初始版本。本项目的目标是通过M3C研究团队与戏剧团体的协作，持续扩充该数据库的规模。 ## 数据库构建在构建v1.0版本数据库时，共录制了5名专业演员（3名女性、2名男性）的语音数据。研究人员选取了19段脱离语境、情感属性模糊的语句，要求演员针对5种选定情感分别演绎这19段语句；此外，每位演员针对每种情感额外增加一段即兴语句。戏剧学领域的科学专家负责指导演员表演，并筛选最终的合格录制音频。部分语句存在多版合格录制，最终数据库共包含约500条语音语句。更新说明：鉴于AESDD本质为动态数据库，后续已按照"数据库组织规范"章节所述的命名规则，新增录制并收录了更多演员的语音数据。 ## 选定情感类别本次选定的情感共5种： 1. a（愤怒，anger） 2. d（厌恶，disgust） 3. f（恐惧，fear） 4. h（快乐，happiness） 5. s（悲伤，sadness） ## 数据库组织规范数据库包含5个文件夹，分别以5种情感类别命名。数据库内所有文件名均遵循如下格式：xAA (B) 其中： - x为情感首字母（a对应愤怒、h对应快乐等） - AA为语句编号（01、02……20） - B为发言者编号（1代表第1位发言者、2代表第2位发言者，以此类推）例如：'a03 (4).wav' 即为第4位发言者以愤怒情绪演绎的第3段语音语句。若同一段语句存在多版合格录制，则通过小写字母加以区分。例如：'f18 (5).wav'与'f18 (5)b.wav'为第5位演员以恐惧情绪演绎第18段语句的两个不同版本。 ## 参考文献 1. Vryzas, N., Kotsakis, R., Liatsou, A., Dimoulas, C. A., & Kalliris, G. (2018). 面向表演交互的语音情感识别（Speech emotion recognition for performance interaction）. *音频工程学会期刊（Journal of the Audio Engineering Society）*, 66(6), 457-467. 2. Vryzas, N., Matsiola, M., Kotsakis, R., Dimoulas, C., & Kalliris, G. (2018, 9月). 语音情感识别交互框架的主观评估（Subjective Evaluation of a Speech Emotion Recognition Interaction Framework）. 见：2018音频主要会议：沉浸式与情感声音研讨会论文集（Proceedings of the Audio Mostly 2018 on Sound in Immersion and Emotion）(第34页). 美国计算机协会（ACM）.

提供机构：

EdwardLin2023

原始信息汇总

Acted Emotional Speech Dynamic Database v1.0

关于数据集

创建时间与地点：2017年10月，在希腊塞萨洛尼基的亚里士多德大学电子媒体实验室。
目的：为Speech Emotion Recognition研究提供数据，由Multidisciplinary Media & Mediated Communication Research Group (M3C) 协作开发。
内容：由专业演员演绎的情感语音数据集。

数据集创建

演员数量：5名（3名女性，2名男性）。
语音数量：19个基础语音，每个语音在5种情感中演绎，每位演员额外增加1个即兴语音，共计约500个语音。
监督：由戏剧学专家监督演员的演绎和录音选择。

选定的情感

愤怒 (a)
厌恶 (d)
恐惧 (f)
快乐 (h)
悲伤 (s)

数据集组织

文件结构：按情感分类的五个文件夹。
文件命名规则：xAA (B)，其中x代表情感首字母，AA代表语音编号，B代表说话者编号。
多版本处理：同一语音的多版本通过小写字母区分。

更新

数据集定义为动态更新，已有更多演员的录音被添加，遵循相同的命名规则。

搜集汇总

数据集介绍

构建方式

在语音情感识别研究领域，高质量的数据集是推动算法发展的基石。AESDD v1.0的构建始于2017年，由塞萨洛尼基亚里士多大学电子媒体实验室主导，旨在服务于多学科媒体与传播研究小组的科研需求。该数据库的创建过程严谨而系统，邀请了五位专业演员（包括三名女性和两名男性）参与录制。研究人员精心挑选了19句情感内容模糊、脱离语境的语句，要求每位演员分别用五种指定情感进行演绎，并为每种情感额外增加一句即兴表达。整个录制过程在戏剧学专家的科学指导下完成，对表演质量与录音效果进行了严格把控，部分语句保留了多个合格版本，最终形成了约500条语音样本的初始集合。

特点

作为专注于表演性情感语音的数据库，AESDD展现出鲜明的结构性与专业性。其核心特征在于采用了清晰、标准化的五类基础情感分类体系，涵盖了愤怒、厌恶、恐惧、快乐与悲伤，这为情感识别模型的训练提供了明确的目标标签。数据库的组织架构极具逻辑性，所有音频文件均按照情感类别分文件夹存放，并遵循一套精密的命名规则，通过文件名即可直接解析出情感类型、语句编号及说话者身份，极大便利了数据的自动化处理与分析。尤为值得一提的是，该数据库被设计为动态增长模式，允许后续遵循相同规范纳入更多演员的录音，确保了其持续演进的潜力与科研应用的延展性。

使用方法

在具体应用层面，AESDD数据库为语音情感识别研究提供了即用型的高质量资源。使用者可依据其清晰的目录结构，直接按情感类别加载对应的音频文件进行模型训练或测试。文件命名规则蕴含了完整的元数据信息，便于研究者编程提取情感标签、说话人ID及语句索引，从而轻松构建监督学习所需的数据对。该数据集特别适用于开发与评估基于深度学习的声学特征分类模型，例如卷积神经网络或循环神经网络。研究人员可以提取梅尔频率倒谱系数等声学特征，利用这些带有精确情感标注的语音样本，训练模型以识别和区分不同的表演性情感状态，推动人机交互与情感计算相关领域的技术进步。

背景与挑战

背景概述

在语音情感识别研究领域，高质量、结构化的情感语音数据库是推动算法发展与性能评估的关键基石。Acted Emotional Speech Dynamic Database (AESDD) v1.0 由塞萨洛尼基亚里士多大学新闻与大众传播学院电子媒体实验室于2017年10月创建，隶属于多学科媒体与媒介传播研究小组，旨在服务于语音情感识别的学术探索。该数据库的核心研究问题聚焦于如何通过专业演员演绎的语音样本，构建一个涵盖愤怒、厌恶、恐惧、快乐、悲伤五种基本情感的标准化语料库，为情感计算、人机交互及媒体研究提供可靠的实验数据基础，其动态扩展的设计理念亦促进了后续研究的持续深化。

当前挑战

该数据集致力于应对语音情感识别领域的关键挑战，即如何在复杂多变的声学环境中实现高精度、鲁棒的情感状态自动判别。具体而言，其构建过程面临多重困难：一是确保情感表达的纯粹性与一致性，需在专业戏剧学家的指导下，筛选出情感内容模糊的语句并由演员进行多轮演绎，以捕捉真实且标准化的情感特征；二是处理数据采集的复杂性，包括多演员、多语句、多情感类别的组合，以及同一语句可能存在多个合格录音版本，这要求严谨的命名与组织架构以维持数据的清晰性与可用性；三是维持数据库的动态扩展性，在后续更新中需严格遵循初始设计规范，确保新增数据与原有体系的无缝整合。

常用场景

经典使用场景

在语音情感识别领域，AESDD数据集常被用于构建和验证情感分类模型。该数据集通过专业演员演绎的五种基本情感——愤怒、厌恶、恐惧、快乐和悲伤，提供了高质量且标注清晰的语音样本。研究者利用这些样本训练机器学习算法，特别是深度学习模型，以识别和区分不同情感状态下的语音特征。这种应用不仅推动了情感计算的理论发展，还为后续的跨语言和跨文化情感识别研究奠定了基础。

实际应用

在实际应用中，AESDD数据集为智能交互系统提供了关键支持。例如，在客户服务机器人中，基于该数据集训练的模型能够实时分析用户语音中的情感倾向，从而调整回应策略以提升服务体验。此外，该数据集还可用于心理健康监测工具，通过识别语音中的情感变化辅助情绪障碍诊断。这些应用不仅增强了人机交互的自然性，也为医疗、教育等领域的个性化服务开发提供了技术基础。

衍生相关工作

围绕AESDD数据集，已衍生出多项经典研究工作。例如，Vryzas等人基于该数据集开发了语音情感识别交互框架，并发表在《Audio Engineering Society》等权威期刊上。后续研究进一步探索了多模态情感融合方法，将语音与面部表情数据结合以提升识别精度。此外，该数据集还激发了跨数据库情感迁移学习的研究，推动了情感计算模型在资源有限场景下的应用创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集