five

ESD数据库|情感语音数据集|文本到语音数据集

收藏
github2024-11-06 更新2024-11-28 收录
情感语音
文本到语音
下载链接:
https://github.com/Choddeok/EmoSpherepp
下载链接
链接失效反馈
资源简介:
ESD数据库是一个情感语音数据库,用于情感文本到语音(TTS)技术的研究和开发。该数据库包含了多种情感风格的语音数据,适用于训练和评估情感TTS模型。
创建时间:
2024-10-29
原始信息汇总

EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector

数据集概述

  • 数据集名称: EmoSphere++
  • 数据集类型: 情感可控的零样本文本到语音(TTS)数据集
  • 数据集来源: ESD数据库(Emotional Speech Database)
  • 数据集链接: https://hltsingapore.github.io/ESD/

数据集用途

  • 应用领域: 情感文本到语音技术
  • 主要功能: 通过情感自适应球形向量模型情感风格和强度,实现情感可控的零样本TTS

数据集结构

数据预处理

  1. VAD分析: 情感特定质心提取 bash sh Analysis.sh

  2. 预处理: 嵌入提取和二进制数据集创建 bash sh preprocessing.sh

训练与推理

  • 训练脚本: bash sh train_run.sh

预训练模型

  • TTS模块: 在11M数据上训练的预训练模型
    • 下载链接: https://works.do/xO6ZtDB

相关资源

  • HiFi-GAN: https://github.com/jik876/hifi-gan
  • BigVGAN: https://github.com/NVIDIA/BigVGAN
  • NATSpeech: https://github.com/NATSpeech/NATSpeech
  • PyTorch Lightning: https://github.com/PyTorchLightning/pytorch-lightning
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建ESD数据库时,研究团队采用了先进的语音情感分析技术,通过情感特定的质心提取和语音活动检测(VAD)分析,确保数据集中的每一条语音样本都能准确反映特定的情感状态。具体步骤包括:首先,对语音数据进行VAD分析,以识别和提取情感相关的特征;随后,通过预处理脚本进行嵌入提取和二进制数据集的创建,从而形成一个结构化且高度情感表达的数据库。
特点
ESD数据库的显著特点在于其情感控制能力和零样本学习潜力。该数据集不仅包含了丰富的情感类别和强度,还通过引入情感自适应球面向量模型,实现了对情感风格和强度的精确建模,无需人工标注。此外,多层次风格编码器的应用确保了模型在已知和未知说话者之间的有效泛化,使得该数据集在情感文本到语音转换(TTS)领域具有广泛的应用前景。
使用方法
使用ESD数据库进行情感TTS模型的训练和推理,首先需要对数据进行预处理,包括VAD分析和嵌入提取。随后,通过运行训练脚本,可以启动TTS模块的训练过程。对于推理阶段,用户可以利用预训练的检查点进行快速部署。此外,数据集的配置文件可以根据具体环境进行调整,以优化模型的性能。通过这些步骤,ESD数据库能够为研究者和开发者提供一个强大的工具,用于开发和评估情感控制的TTS系统。
背景与挑战
背景概述
情感文本到语音(TTS)技术近年来取得了显著进展,然而,由于情感的内在复杂性和现有情感语音数据集及模型的局限性,仍存在诸多挑战。以往的研究通常依赖于有限的情感语音数据集或需要大量手动标注,限制了其在不同说话人和情感风格上的泛化能力。在此背景下,韩国高丽大学人工智能系的研究团队提出了EmoSphere++,一种情感可控的零样本TTS模型,该模型能够控制情感风格和强度,以模拟自然人类语音。EmoSphere++引入了新颖的情感自适应球面向量,无需人工标注即可建模情感风格和强度,并提出了多层次风格编码器,确保对已知和未知说话人的有效泛化。此外,通过引入额外的损失函数和基于条件流匹配的解码器,该模型在零样本场景下实现了高质量和表现力丰富的情感TTS。
当前挑战
ESD数据库作为情感语音数据集,面临的主要挑战包括情感的多样性和复杂性,以及数据集的规模和质量。情感的多样性要求模型能够准确捕捉和表达不同情感的细微差别,而复杂性则增加了模型训练的难度。此外,数据集的构建过程中,如何确保情感标注的准确性和一致性,以及如何处理不同说话人的语音特征,都是需要克服的难题。在模型训练方面,如何在不依赖大量手动标注的情况下,实现情感风格和强度的有效建模,以及如何确保模型在零样本场景下的泛化能力,也是当前研究的重点和难点。
常用场景
经典使用场景
ESD数据库在情感可控的零样本文本到语音转换(TTS)领域中扮演着关键角色。该数据集被广泛用于训练和验证EmoSphere++模型,该模型能够通过情感自适应球形向量来模拟情感风格和强度,从而生成高质量的情感语音。通过ESD数据库,研究者能够探索不同情感风格和强度的语音生成,为情感TTS技术的发展提供了坚实的基础。
解决学术问题
ESD数据库解决了情感TTS领域中情感数据稀缺和标注复杂的问题。传统方法依赖于有限且标注繁琐的情感语音数据集,限制了模型的泛化能力和情感表达的多样性。ESD数据库通过提供丰富的情感语音样本,使得研究者能够在无需人工标注的情况下,训练出能够泛化到不同说话人和情感风格的模型,推动了情感TTS技术的进步。
衍生相关工作
基于ESD数据库的研究工作催生了多项经典成果,如EmoSphere++模型及其后续改进。这些工作不仅在情感TTS领域取得了显著进展,还推动了情感自适应球形向量和多层次风格编码器等技术的研究。此外,ESD数据库的应用还激发了对情感语音生成和情感识别交叉领域的深入探索,促进了跨学科研究的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

google/speech_commands

SpeechCommands数据集包含一秒钟的.wav音频文件,每个文件包含一个单独的英语单词或背景噪音。这些单词来自一组命令,并由不同的说话者录制。数据集有两个版本,v0.01和v0.02,分别包含64,727和105,829个音频文件。数据集的主要任务是关键词检测,即通过分类将话语分类为预定义的单词集。数据集的语言为英语,数据集的创建目的是为了帮助训练简单的机器学习模型。

hugging_face 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

SWaT Dataset

SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。

itrust.sutd.edu.sg 收录