EXPRESSO

Name: EXPRESSO
Creator: Meta AI
Published: 2023-08-11 01:41:19
License: 暂无描述

arXiv2023-08-11 更新2024-06-21 收录

下载链接：

https://speechbot.github.io/expresso/

下载链接

链接失效反馈

官方服务：

资源简介：

EXPRESSO数据集由Meta AI创建，包含47小时的北美英语表达性语音，分为阅读和即兴对话两部分，涵盖26种自发表达风格。数据集通过专业录音室录制，质量高，格式多样。创建过程包括演员根据特定情境即兴对话，以及阅读特定文本。该数据集旨在推动无文本语音合成技术的发展，特别是在表达性语音合成方面，解决传统语音合成中表达性和自然性的不足。

The EXPRESSO dataset, developed by Meta AI, comprises 47 hours of expressive North American English speech, categorized into two modalities: read speech and impromptu conversational sessions, covering 26 distinct spontaneous expressive styles. Recorded in professional studios, the dataset features high audio quality and diverse file formats. The dataset’s construction entails actors performing impromptu dialogues tailored to specific contextual scenarios, as well as reading predefined textual content. This dataset is intended to drive the advancement of text-free speech synthesis technologies, with a specific focus on expressive speech synthesis, and to resolve the limitations of expressiveness and naturalness present in traditional speech synthesis systems.

提供机构：

Meta AI

创建时间：

2023-08-11

搜集汇总

数据集介绍

构建方式

EXPRESSO数据集的构建方式体现了对语音合成领域最新趋势的深入理解与响应。该数据集的构建主要分为两个部分：表达性朗读和即兴对话。在表达性朗读部分，演员们以7种不同的风格朗读简短提示，并附加长篇和强调材料。而在即兴对话部分，演员们则根据提示进行即兴对话，模仿虚构场景中的角色，从而产生更加真实和随意的语音。此外，数据集还包括一小部分歌唱内容。所有数据均录制于专业录音室，以保证音频质量。

使用方法

EXPRESSO数据集可用于训练和评估无文本语音合成系统。研究者可以使用该数据集训练离散语音表示模型，并评估其合成语音的质量和表达性。此外，该数据集还可以用于研究语音合成中的各种挑战，如内容保留、风格保留、音高保留等。为了方便研究者使用，EXPRESSO数据集还提供了自动评估指标，用于评估语音合成系统的性能。

背景与挑战

背景概述

在语音合成领域，传统的做法是基于文本到语音的映射。然而，这种方法往往限制了语音的生动性和表现力，因为文本无法完全捕捉到语言的节奏、语调、情感、重音以及非言语的声音等表达维度。近年来，自监督学习（SSL）语音模型的出现为构建更加生动的语音系统提供了新的可能性。这些模型能够从无需文本标注的音频中学习离散表示，从而捕捉到语音中难以转录的表达性特征。然而，构建此类表达性系统的关键挑战之一是缺乏足够表达性和高质量音频的数据集。现有的表达性数据集大多使用演员以不同的表达方式阅读（例如，快乐、悲伤等）中性句子，这种方法往往导致表达不够自然和可信。为了解决这一问题，EXPRESSO数据集应运而生。该数据集由Meta AI和耶路撒冷希伯来大学的研究人员创建，旨在提供一个高质量的语音合成数据集，包括阅读语音和即兴对话，涵盖了26种自发的表达风格。EXPRESSO数据集的创建为构建更加生动和自然的语音合成系统提供了重要的资源，并对相关领域产生了深远的影响。

当前挑战

EXPRESSO数据集的构建和利用面临着一系列挑战。首先，数据集需要包含足够多样化和高质量的音频数据，以捕捉到语音中丰富的表达性特征。其次，数据集的构建需要考虑如何有效地将语音编码为低比特率的离散单元，并在解码时保留语音的内容和风格。此外，EXPRESSO数据集还面临着如何评估语音合成质量的挑战，需要开发自动化的指标来评估内容、音调和表达性的保留程度。最后，EXPRESSO数据集的利用需要进一步研究和探索，以开发更加高效和可控的语音合成模型，并解决语音合成过程中可能出现的各种问题。

常用场景

经典使用场景

EXPRESSO 数据集旨在解决现有语音合成数据集在表达性和自然度方面的不足。该数据集包含了大量的阅读语音和即兴对话，涵盖了26种不同的表达风格，如愤怒、快乐、悲伤等。这些丰富的表达性数据使得基于 EXPRESSO 数据集的语音合成模型能够更好地捕捉和重现语音中的韵律、语调、情感等表达性特征，从而生成更加自然和生动的语音。

解决学术问题

EXPRESSO 数据集为语音合成领域的研究提供了新的可能性。该数据集解决了现有数据集在表达性和自然度方面的不足，为基于自监督学习的语音合成模型提供了高质量的数据支持。通过 EXPRESSO 数据集，研究人员可以评估不同自监督离散编码器在语音合成任务上的性能，并探索质量、比特率和说话人及风格不变性之间的权衡。此外，EXPRESSO 数据集还为开发更具有表达性和自然度的语音合成系统提供了重要的数据基础。

实际应用

EXPRESSO 数据集在实际应用中具有广泛的应用前景。该数据集可以用于开发更加自然和生动的语音合成系统，例如虚拟助手、语音聊天机器人、语音动画等。此外，EXPRESSO 数据集还可以用于语音情感识别、语音风格转换等任务，为语音处理领域的研究和应用提供了重要的数据支持。

数据集最近研究