five

JVNV

收藏
arXiv2023-10-10 更新2024-06-21 收录
下载链接:
https://sites.google.com/site/shinnosuketakamichi/research-topics/jvnv_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
JVNV是一个包含日语情感语音的数据集,由东京大学信息科学与技术研究生院创建。该数据集包含514条语音数据,涵盖六种基本情绪,由四名专业演讲者录制,每条语音至少包含一个非语言声音(NVs)。JVNV数据集通过大型语言模型自动生成情感脚本,确保了语音数据的情感表达和语音覆盖的平衡。该数据集适用于语音情感识别和情感语音合成等任务,旨在解决现有情感语音数据集中情感脚本和非语言声音表达不足的问题。

JVNV is a dataset of Japanese emotional speech developed by the Graduate School of Information Science and Technology at The University of Tokyo. This dataset comprises 514 speech samples covering six basic emotions, recorded by four professional speakers, with each sample containing at least one non-verbal sound (NVs). The JVNV dataset automatically generates emotional scripts through Large Language Models, ensuring a balanced distribution of emotional expressions and speech coverage across the collected speech data. This dataset is suitable for tasks including speech emotion recognition and emotional speech synthesis, and it aims to address the shortage of adequate emotional scripts and non-verbal sound expressions in existing emotional speech datasets.
提供机构:
东京大学信息科学与技术研究生院
创建时间:
2023-10-10
搜集汇总
数据集介绍
main_image_url
构建方式
JVNV数据集的构建方式是通过利用大型语言模型生成包含情感脚本的日语情感语音语料库。首先,从日语情感极性词典和之前的日语非语言表达语料库中抽取候选种子词和非语言表达短语,形成提示来生成情感脚本。为了提高生成质量,在提示中加入手动示例,利用大型语言模型(LLM)的上下文学习能力。然后,通过情感分类器和语言模型选择高质量的脚本。基于此方法,构建了JVNV,一个包含语音内容和非语言表达的日语情感语音语料库。
特点
JVNV数据集的特点在于它是一个音素平衡的日语情感语音语料库,包含了语音内容和非语言表达。JVNV由大约四小时的情感语音数据组成,涵盖了六种基本情感,由四位母语者发出。每个发音至少包含一个非语言表达短语。此外,JVNV还提供了每个发音中非语言表达短语的持续时间标注,使其更适合进一步研究非语言表达。
使用方法
使用JVNV数据集的方法包括语音情感识别(SER)、表情语音合成和表情检测等。在语音情感识别方面,JVNV可以帮助构建具有高情感识别率的SER系统。在表情语音合成方面,JVNV可以用于构建具有表达力的TTS系统。在表情检测方面,JVNV可以帮助开发能够检测非语言表达的SER系统。
背景与挑战
背景概述
JVNV数据集是一个日本情感语音语料库,包含了由大型语言模型生成的情感脚本和非言语表达。该数据集的创建旨在解决现有情感语音语料库中缺乏适当情感脚本和非言语表达(NVs)的问题。JVNV数据集由东京大学信息科学与技术研究生院和日本国立情报学研究所的研究人员共同构建,他们利用ChatGPT等大型语言模型自动生成情感脚本,并通过情感置信度分数和语言流畅度分数从候选脚本中选择了514个具有均衡音素覆盖率的脚本。JVNV数据集的创建对情感语音识别、语音合成等研究领域产生了重要影响,为相关研究提供了宝贵资源。
当前挑战
JVNV数据集面临的主要挑战包括:1)在情感语音识别任务中,如何有效地利用非言语表达(NVs)来提高情感识别的准确性和可靠性;2)在语音合成任务中,如何准确地表示和合成非言语表达,使其在语音中更加自然和逼真。此外,JVNV数据集的构建过程中也遇到了一些挑战,例如:1)如何确保生成的情感脚本具有足够的音素覆盖率;2)如何提高情感脚本的生成质量,使其能够更好地表达情感;3)如何有效地评估和筛选生成的脚本,以确保数据集的质量和可用性。
常用场景
经典使用场景
JVNV数据集是一个包含日语音频内容的情感语音语料库,旨在解决现有情感语音语料库缺乏适当情感脚本和非语言声音的问题。该数据集利用大型语言模型自动生成情感脚本,并通过专业演讲者朗读这些脚本,从而涵盖了语音和情感的非语言表达。JVNV数据集的经典使用场景包括语音情感识别、情感语音合成和非语言声音检测等任务。这些任务可以通过分析语音中的情感和非语言声音,从而提高语音识别和语音合成的准确性和表现力。
解决学术问题
JVNV数据集解决了现有情感语音语料库缺乏适当情感脚本和非语言声音的问题。通过使用大型语言模型自动生成情感脚本,并确保脚本中包含适当的非语言声音,JVNV数据集为语音情感识别和情感语音合成等任务提供了更真实和多样化的数据集。此外,JVNV数据集还提供了非语言声音的持续时间和内容信息,为非语言声音的研究提供了更丰富的数据资源。这些贡献使得JVNV数据集在情感语音处理领域具有重要意义和影响。
衍生相关工作
JVNV数据集的构建方法及其研究成果为情感语音处理领域带来了新的研究方向和挑战。例如,基于离散代码和音素表示非语言声音和语音内容的方法为情感语音合成提供了新的思路,而如何更准确地表示和合成非语言声音仍然是一个重要的研究问题。此外,JVNV数据集也为语音情感识别和非语言声音检测等任务提供了更真实和多样化的数据资源,从而促进了相关技术的进一步发展和应用。这些衍生相关工作进一步扩展了JVNV数据集的应用范围和研究价值,并为情感语音处理领域的发展提供了新的动力和方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作