five

EMOVIE|情感语音处理数据集|电影配音数据集

收藏
arXiv2021-06-17 更新2024-06-21 收录
情感语音处理
电影配音
下载链接:
https://viem-ccy.github.io/EMOVIE/dataset release
下载链接
链接失效反馈
资源简介:
EMOVIE是由浙江大学创建的中文情感语音数据集,包含9,724个样本,总时长4.18小时。该数据集从七部普通话电影中提取,具有高质量的自然情感语音数据,适用于情感文本到语音转换及其他相关任务。创建过程中,通过ffmpeg工具从电影文件中提取音频,并进行音频轨道分解,以获取高质量的对话音频。EMOVIE数据集旨在解决情感文本到语音合成中的挑战,特别是在生成更具情感表达的语音方面,适用于电影配音等应用。
提供机构:
浙江大学
创建时间:
2021-06-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
EMOVIE数据集的构建基于七部普通话电影,这些电影具有相对无噪音的音频轨道。通过使用ffmpeg工具提取原始音频,并进行音频轨道分解,获取前中心通道的高质量对话音频。结合嵌入式字幕或第三方字幕文件的时间戳,将完整音频轨道切割为单句语音音频样本,并对应其文本片段。经过仔细筛选,最终获得9724个样本,总计4.18小时的音频数据。
使用方法
EMOVIE数据集可用于多种情感相关语音任务,如情感语音合成、情感语音转换和语音情感识别。用户可以通过训练情感分类模型来验证数据集的标注可靠性,或使用数据集训练情感文本到语音合成模型。此外,数据集支持手动输入情感标签,以生成具有预期情感的语音样本,增强模型的情感表达能力和控制性。
背景与挑战
背景概述
近年来,随着神经网络语音合成技术的快速发展,如何生成更具情感和表现力的语音成为研究的新挑战。EMOVIE数据集由浙江大学和阿里巴巴集团的研究人员共同创建,旨在填补高质量情感语音数据集的空白。该数据集包含9,724个样本,涵盖了从电影中提取的自然情感语音,并附有情感标签。EMOVIE数据集的发布不仅为情感文本到语音(TTS)任务提供了宝贵的资源,还推动了情感语音合成技术的发展,特别是在中文普通话领域。
当前挑战
EMOVIE数据集在构建过程中面临多个挑战。首先,高质量情感语音数据的稀缺性使得数据收集和标注工作异常复杂。其次,现有的情感语音合成模型通常依赖于额外的参考音频或情感标签输入,这限制了模型的灵活性和实用性。为了解决这些问题,EMOVIE数据集通过从电影中提取自然对话来确保语音质量,并开发了一种简单的情感TTS模型,该模型能够仅从输入文本预测情感标签并生成更具表现力的语音。然而,如何进一步提升模型的情感表达能力和控制精度,仍是未来研究的重要方向。
常用场景
经典使用场景
EMOVIE数据集在情感语音合成领域中被广泛应用,其经典使用场景包括情感文本到语音(TTS)任务。通过该数据集,研究人员能够训练模型以生成带有特定情感色彩的语音样本,从而提升语音合成的表现力和情感表达能力。
解决学术问题
EMOVIE数据集解决了情感语音合成领域中高质量情感语音数据稀缺的问题。它为研究人员提供了一个丰富的资源,使得他们能够开发和验证新的情感TTS模型,从而推动该领域的学术研究进展。
实际应用
在实际应用中,EMOVIE数据集支持多种应用场景,如电影配音、虚拟助手和情感化语音交互系统。通过使用该数据集训练的模型,可以生成更具情感表达力的语音,提升用户体验和交互的自然度。
数据集最近研究
最新研究方向
在情感语音合成领域,EMOVIE数据集的发布标志着对高质量情感语音数据需求的响应。该数据集不仅填补了普通话情感语音数据的空白,还为研究人员提供了一个新的平台,以探索情感语音合成的复杂性。当前的研究方向主要集中在利用EMOVIE数据集开发更高效的情感语音合成模型,这些模型能够从文本中直接预测情感标签,并生成更具表现力的语音。此外,研究者们也在探索如何通过情感控制机制,使生成的语音能够根据用户需求调整情感强度,从而在电影配音、虚拟助手等应用中实现更自然的交互体验。这些研究不仅推动了情感语音合成技术的发展,也为多模态情感识别和情感迁移等前沿领域提供了新的可能性。
相关研究论文
  • 1
    EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model浙江大学 · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

NSL-KDD

NSL-KDD数据集是一个用于测试入侵检测算法的网络流量数据集。它是KDD Cup 1999数据集的改进版本,解决了原始数据集中的冗余记录和类别不平衡问题。该数据集包含训练和测试数据文件,以及包含数据集列名的文件。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录