EMOVIE
收藏arXiv2021-06-17 更新2024-06-21 收录
下载链接:
https://viem-ccy.github.io/EMOVIE/dataset release
下载链接
链接失效反馈官方服务:
资源简介:
EMOVIE是由浙江大学创建的中文情感语音数据集,包含9,724个样本,总时长4.18小时。该数据集从七部普通话电影中提取,具有高质量的自然情感语音数据,适用于情感文本到语音转换及其他相关任务。创建过程中,通过ffmpeg工具从电影文件中提取音频,并进行音频轨道分解,以获取高质量的对话音频。EMOVIE数据集旨在解决情感文本到语音合成中的挑战,特别是在生成更具情感表达的语音方面,适用于电影配音等应用。
EMOVIE is a Chinese emotional speech dataset developed by Zhejiang University, which contains 9,724 samples with a total duration of 4.18 hours. Extracted from seven Mandarin-language films, this dataset features high-quality natural emotional speech data, and is applicable to emotional text-to-speech conversion and other related tasks. During its creation, audio was extracted from film files via the ffmpeg tool, followed by audio track decomposition to obtain high-quality conversational audio. The EMOVIE dataset aims to address the challenges in emotional text-to-speech synthesis, especially in generating more expressively emotional speech, and is suitable for applications such as film dubbing.
提供机构:
浙江大学
创建时间:
2021-06-17
搜集汇总
数据集介绍

构建方式
EMOVIE数据集的构建基于七部普通话电影,这些电影具有相对无噪音的音频轨道。通过使用ffmpeg工具提取原始音频,并进行音频轨道分解,获取前中心通道的高质量对话音频。结合嵌入式字幕或第三方字幕文件的时间戳,将完整音频轨道切割为单句语音音频样本,并对应其文本片段。经过仔细筛选,最终获得9724个样本,总计4.18小时的音频数据。
使用方法
EMOVIE数据集可用于多种情感相关语音任务,如情感语音合成、情感语音转换和语音情感识别。用户可以通过训练情感分类模型来验证数据集的标注可靠性,或使用数据集训练情感文本到语音合成模型。此外,数据集支持手动输入情感标签,以生成具有预期情感的语音样本,增强模型的情感表达能力和控制性。
背景与挑战
背景概述
近年来,随着神经网络语音合成技术的快速发展,如何生成更具情感和表现力的语音成为研究的新挑战。EMOVIE数据集由浙江大学和阿里巴巴集团的研究人员共同创建,旨在填补高质量情感语音数据集的空白。该数据集包含9,724个样本,涵盖了从电影中提取的自然情感语音,并附有情感标签。EMOVIE数据集的发布不仅为情感文本到语音(TTS)任务提供了宝贵的资源,还推动了情感语音合成技术的发展,特别是在中文普通话领域。
当前挑战
EMOVIE数据集在构建过程中面临多个挑战。首先,高质量情感语音数据的稀缺性使得数据收集和标注工作异常复杂。其次,现有的情感语音合成模型通常依赖于额外的参考音频或情感标签输入,这限制了模型的灵活性和实用性。为了解决这些问题,EMOVIE数据集通过从电影中提取自然对话来确保语音质量,并开发了一种简单的情感TTS模型,该模型能够仅从输入文本预测情感标签并生成更具表现力的语音。然而,如何进一步提升模型的情感表达能力和控制精度,仍是未来研究的重要方向。
常用场景
经典使用场景
EMOVIE数据集在情感语音合成领域中被广泛应用,其经典使用场景包括情感文本到语音(TTS)任务。通过该数据集,研究人员能够训练模型以生成带有特定情感色彩的语音样本,从而提升语音合成的表现力和情感表达能力。
解决学术问题
EMOVIE数据集解决了情感语音合成领域中高质量情感语音数据稀缺的问题。它为研究人员提供了一个丰富的资源,使得他们能够开发和验证新的情感TTS模型,从而推动该领域的学术研究进展。
实际应用
在实际应用中,EMOVIE数据集支持多种应用场景,如电影配音、虚拟助手和情感化语音交互系统。通过使用该数据集训练的模型,可以生成更具情感表达力的语音,提升用户体验和交互的自然度。
数据集最近研究
最新研究方向
在情感语音合成领域,EMOVIE数据集的发布标志着对高质量情感语音数据需求的响应。该数据集不仅填补了普通话情感语音数据的空白,还为研究人员提供了一个新的平台,以探索情感语音合成的复杂性。当前的研究方向主要集中在利用EMOVIE数据集开发更高效的情感语音合成模型,这些模型能够从文本中直接预测情感标签,并生成更具表现力的语音。此外,研究者们也在探索如何通过情感控制机制,使生成的语音能够根据用户需求调整情感强度,从而在电影配音、虚拟助手等应用中实现更自然的交互体验。这些研究不仅推动了情感语音合成技术的发展,也为多模态情感识别和情感迁移等前沿领域提供了新的可能性。
相关研究论文
- 1EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model浙江大学 · 2021年
以上内容由遇见数据集搜集并总结生成



