Emilia|语音生成数据集|多语言处理数据集

arXiv2024-07-07 更新2024-07-12 收录

语音生成

多语言处理

下载链接：

https://github.com/open-mmlab/Amphion/tree/main/preprocessors/Emilia

下载链接

链接失效反馈

资源简介：

Emilia数据集由香港中文大学（深圳）等机构创建，是一个大规模、多语言、多样化的语音生成数据集，包含超过101,654小时的语音数据，涵盖英语、中文、德语、法语、日语和韩语。数据集主要由野外语音数据构成，具有多种说话风格，通过Emilia-Pipe预处理管道进行标准化、源分离、说话人分类、细粒度分段、自动语音识别和过滤等步骤创建。该数据集旨在推动语音生成模型向更自然、更人性化的方向发展，适用于多语言文本到语音（TTS）模型的训练。

提供机构：

香港中文大学（深圳）, 中国科学院声学研究所语音与智能信息处理实验室, 中国科学院大学, 上海人工智能实验室

创建时间：

2024-07-07

AI搜集汇总

数据集介绍

构建方式

Emilia数据集的构建始于收集超过101k小时的六种语言的语音数据，涵盖了英语、中文、德语、法语、日语和韩语。这些数据来源于多种视频平台和播客，涵盖了谈话节目、访谈、辩论、体育评论和有声读物等多种内容类别，以确保数据集能够捕捉到广泛的实际人类说话风格。Emilia数据集的构建采用了Emilia-Pipe预处理流程，该流程包括标准化、源分离、说话人分割、基于语音活动检测的细粒度分割、自动语音识别和过滤六个步骤。这些步骤旨在将原始的野外语音数据转换为高质量的训练数据，并为其添加语音生成所需的注释。Emilia-Pipe能够高效地将原始语音数据转换为适合模型训练的数据，每分钟可以处理约2.50小时的原始语音数据。

特点

Emilia数据集的特点主要体现在其广泛性、多语言性和多样性上。它包含了超过101k小时的语音数据，覆盖了六种语言，是迄今为止最大的学术语音生成数据集。Emilia数据集主要包含自发的语音，涵盖了广泛的说话风格，这对于训练高质量、自发和人性化的语音生成模型至关重要。此外，Emilia数据集还具备动态性，可以通过添加用户指定的源音频来轻松扩展其总时长和语言覆盖范围。Emilia-Pipe预处理流程的开放源代码特性使得数据集能够被广泛的研究人员使用，从而推动大规模语音生成研究的发展。

使用方法

Emilia数据集的使用方法包括以下步骤：首先，使用Emilia-Pipe预处理流程对原始语音数据进行处理，将其转换为适合模型训练的数据，并为其添加语音生成所需的注释。然后，使用这些数据训练语音生成模型，如文本到语音（TTS）模型。Emilia数据集提供了多种语言的数据，可以用于训练多语言TTS模型。此外，Emilia数据集还提供了测试集，可以用于评估模型在生成自发和人性化语音方面的性能。研究人员可以使用Emilia数据集进行大规模的语音生成研究，并利用其开放源代码的特性进行进一步的开发和改进。

背景与挑战

背景概述

随着语音生成模型在利用大规模训练数据方面的显著进展，当前研究社区在生成高度自然和类似人类语音方面仍面临挑战。主要原因之一是缺乏大规模、多样化和自然语音数据。为了解决这一问题，He等人提出了Emilia数据集，这是第一个基于野外语音数据的多元语音生成数据集。Emilia数据集由超过101,000小时的六种语言的语音数据组成，具有多样化的语音和不同的说话风格。为了促进Emilia的扩展，研究人员还设计了一个名为Emilia-Pipe的开源预处理流程，用于将野外语音数据转换为高质量的语音生成训练数据。Emilia-Pipe可以在几分钟内处理一小时的原始语音数据，使研究社区能够协作进行大规模语音生成研究。实验结果表明，Emilia数据集在生成高质量、自然和类似人类的语音方面是有效的。

当前挑战

Emilia数据集和相关研究面临的主要挑战包括：1) 缺乏大规模、多样化和自然语音数据，导致生成的语音无法与真实世界中的自然人类语音相媲美；2) 直接使用野外语音数据不可行，因为这些数据存在长度和质量的差异、频繁的背景噪音、音乐、混响、单个样本中存在多个说话者以及缺乏必要的标注（如文本转录）。Emilia-Pipe预处理流程的引入解决了这些问题，但如何在保持数据质量和多样性的同时进一步扩大数据集规模，以及如何提高预处理流程的效率，仍然是当前研究的重要挑战。

常用场景

经典使用场景

Emilia数据集广泛应用于大规模语音生成研究，尤其适合于训练能够生成自然、真实语音的模型。它涵盖了六种语言的丰富语音样本，包括英语、中文、德语、法语、日语和韩语，为多语言语音合成提供了宝贵的资源。此外，Emilia数据集还包含了多种说话风格，如谈话、采访、辩论、体育评论和有声读物等，使得训练出的模型能够适应不同的语境和场景。

解决学术问题

Emilia数据集解决了当前语音生成模型在生成自然、真实语音方面存在的局限性。传统的语音数据集大多来源于有声读物，其语音风格较为正式，缺乏真实生活中的自然性和多样性。Emilia数据集从野外语音数据中提取，包含了大量自然、真实的语音样本，为语音生成模型提供了更为丰富的训练数据。此外，Emilia-Pipe预处理管道能够有效地将野外语音数据转换为高质量的训练数据，并添加语音生成所需的注释，进一步提高了数据集的质量和可用性。

衍生相关工作

Emilia数据集的发布推动了语音生成领域的研究进展，衍生出了一系列相关的研究工作。例如，基于Emilia数据集，研究人员可以探索如何训练更加高效的语音生成模型，如何提高语音生成模型在不同语言和说话风格下的性能，以及如何将Emilia数据集应用于语音识别、语音转换等任务中。此外，Emilia-Pipe预处理管道的发布也为语音数据预处理领域的研究提供了新的思路和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

RFUAV

RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集，包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题，提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别，有助于推动相关技术的研究与应用。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心（CSLT）发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下，由王东完成的。清华大学计算机科学系智能与系统，原名“TCMSD”，意思是“清华连续普通话语音数据库”，时隔13年出版，由王东博士发起，并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此，该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。