EmoSpeech|情感分析数据集|文本到语音数据集

arXiv2024-12-09 更新2024-12-11 收录

情感分析

文本到语音

下载链接：

https://drive.google.com/drive/folders/1bd3HXdqmIPNV4jz6w7eGtXGbaDlWpgJN?usp=sharing

下载链接

链接失效反馈

资源简介：

EmoSpeech数据集是由香港科技大学和香港浸会大学联合创建的情感丰富且上下文详细的语音标注语料库。该数据集包含约16小时的音频，主要从电影和电视剧中提取，涵盖了多种情感表达和场景。每个样本都通过自然语言句子进行详细描述，而非传统的固定情感标签，为情感控制的文本到语音（TTS）系统提供了更准确的数据。数据集的创建过程包括目标语音提取、情感识别和数据增强，利用生成模型和大型语言模型（LLM）进行自动标注和数据扩充，减少了手动标注的成本。该数据集的应用领域主要集中在情感控制的TTS系统开发，旨在解决现有情感语音数据库标注简单、情感表达不足的问题。

提供机构：

香港科技大学、香港浸会大学

创建时间：

2024-12-09

AI搜集汇总

数据集介绍

构建方式

EmoSpeech数据集的构建过程融合了先进的语音处理技术与自然语言生成模型，旨在提取并标注情感丰富的语音片段。首先，通过目标语音提取模块，利用Fast Whisper模型将音频转录为文本，并根据预定义规则过滤情感较弱的片段，确保仅保留情感特征明显的对话内容。随后，情感识别模块采用SECap预训练模型，通过自然语言描述对语音情感进行详细标注，替代传统的单一情感标签。最后，数据增强模块利用大型语言模型（LLM）生成多样化的情感描述，进一步丰富数据集的情感表达。

特点

EmoSpeech数据集的显著特点在于其情感标注的细致性与多样性。与传统情感数据库仅使用有限的情感标签不同，EmoSpeech通过自然语言描述捕捉情感的细微差异，提供了更丰富的情感粒度。此外，数据集涵盖了多种情感状态、不同年龄、性别和口音的语音样本，确保了语音的多样性和模型的泛化能力。通过LLM的增强，数据集的情感描述不仅准确，还具有高度的表达多样性，为情感可控的TTS系统提供了强大的数据支持。

使用方法

EmoSpeech数据集可广泛应用于情感可控的文本到语音（TTS）系统开发。研究者可以通过该数据集训练模型，使其能够根据输入文本生成具有特定情感色彩的语音。具体使用方法包括：首先，利用数据集中的情感标注进行模型训练，使模型能够识别并生成与情感描述相匹配的语音。其次，通过数据增强模块生成的多样化情感描述，进一步提升模型的情感表达能力。此外，该数据集还可用于情感识别、语音合成等领域的研究，为开发更加自然和动态的语音交互系统提供基础。

背景与挑战

背景概述

随着人工智能技术的迅猛发展，文本到语音（TTS）系统的质量得到了显著提升，尤其是在语音生成方面，已经能够逼真地模仿目标说话者的音色和语调。然而，由于人类情感表达的复杂性，开发能够精确控制细微情感差异的TTS系统仍然是一个巨大的挑战。现有的情感语音数据库通常采用过于简化的标签方案，无法捕捉广泛的情感状态，从而限制了情感合成在TTS应用中的有效性。为了解决这一问题，EmoSpeech数据集应运而生，由香港科技大学和香港浸会大学的研究人员共同开发。该数据集通过系统地提取情感丰富的语音片段，并使用自然语言描述进行详细标注，旨在增强情感粒度，减少对昂贵手动标注的依赖，为开发更细致和动态的情感控制TTS系统提供了可扩展且经济可行的解决方案。

当前挑战

EmoSpeech数据集的构建面临多个挑战。首先，情感识别的复杂性要求系统能够准确捕捉和描述情感的细微差别，而传统的单一情感标签无法满足这一需求。其次，数据集的构建过程中，如何从海量音频数据中高效提取情感丰富的语音片段，并确保这些片段的情感强度和多样性，是一个技术难点。此外，自动化的数据增强和标注过程虽然减少了人工成本，但也带来了如何确保生成描述的准确性和多样性的问题。最后，数据集的多样性，包括不同年龄、性别、情感和口音的语音样本，也是确保模型泛化能力的关键挑战。

常用场景

经典使用场景

EmoSpeech数据集的经典使用场景主要集中在情感控制的文本到语音（TTS）系统中。该数据集通过提取和标注情感丰富的语音片段，并使用自然语言描述情感内容，为TTS系统提供了更为细致和动态的情感表达基础。这种详细标注的方式使得TTS系统能够更精确地控制语音中的情感变化，从而生成更加自然和富有表现力的语音输出。

解决学术问题

EmoSpeech数据集解决了现有情感语音数据库在情感表达上的不足，特别是传统数据库中情感标签过于简单、无法捕捉复杂情感状态的问题。通过引入自然语言描述的情感标注，EmoSpeech显著提升了情感表达的粒度和准确性，为情感识别和TTS系统的情感控制提供了更为丰富的训练数据。这一改进对于提升TTS系统的情感表达能力和用户体验具有重要意义。

衍生相关工作

EmoSpeech数据集的发布催生了一系列相关研究工作，特别是在情感语音合成和情感识别领域。例如，基于EmoSpeech的情感标注方法被用于改进现有的情感识别模型，提升了模型对复杂情感的识别能力。此外，EmoSpeech的标注方式也为其他情感语音数据库的设计提供了新的思路，推动了情感语音数据的标注标准化和多样化。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

Wafer Defect

该数据集包含了七个主要类别的晶圆缺陷，分别是：BLOCK ETCH、COATING BAD、PARTICLE、PIQ PARTICLE、PO CONTAMINATION、SCRATCH和SEZ BURNT。这些类别涵盖了晶圆在生产过程中可能出现的多种缺陷类型，每一种缺陷都有其独特的成因和表现形式。数据集不仅在类别数量上具有多样性，而且在样本的多样性和复杂性上也展现了其广泛的应用潜力。每个类别的样本均经过精心标注，确保了数据的准确性和可靠性。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录