GLOBE

Name: GLOBE
Creator: 新南威尔士大学计算机科学与工程学院
Published: 2024-06-21 13:55:45
License: 暂无描述

arXiv2024-06-21 更新2024-06-25 收录

下载链接：

https://globecorpus.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

GLOBE数据集是由新南威尔士大学计算机科学与工程学院创建的高质量英语语料库，包含来自23,519名全球不同口音的说话者，总计535小时的语音数据。该数据集通过严格的过滤和增强过程，从原始的Common Voice数据集中提炼而来，旨在解决当前零样本说话者自适应文本到语音（TTS）系统在适应口音方面的局限性。GLOBE数据集不仅提供了详细的说话者元数据，包括口音、年龄和性别，还广泛覆盖了164种全球口音，显著提高了零样本TTS模型对不同口音的泛化能力。该数据集的应用领域主要集中在提升TTS系统的口音适应性和语音合成的自然度，解决现有TTS系统在处理多样口音时的性能问题。

The GLOBE dataset is a high-quality English corpus created by the School of Computer Science and Engineering at the University of New South Wales. It contains 535 hours of speech data from 23,519 speakers with diverse global accents. Derived from the original Common Voice dataset through rigorous filtering and augmentation processes, this dataset aims to address the limitations of current zero-shot speaker adaptive Text-to-Speech (TTS) systems in accent adaptation. The GLOBE dataset not only provides detailed speaker metadata including accent, age and gender, but also covers 164 distinct global accents, significantly enhancing the generalization capability of zero-shot TTS models across various accents. Its main application areas focus on improving the accent adaptability of TTS systems and the naturalness of speech synthesis, as well as resolving the performance issues of existing TTS systems when dealing with diverse accents.

提供机构：

新南威尔士大学计算机科学与工程学院

创建时间：

2024-06-21

搜集汇总

数据集介绍

构建方式

GLOBE数据集的构建基于Common Voice数据集，通过对原始数据进行严格的筛选和增强处理，去除了低质量、带宽受限的音频样本，并对语音文本进行了重新对齐。此外，通过手动清理口音标签，并通过预测模型补充了缺失的说话者元数据。最终，GLOBE数据集包含了535小时的语音数据，采样率为24 kHz。

使用方法

使用GLOBE数据集进行说话人自适应语音合成研究时，首先需要将数据集进行预处理，包括音频质量评估、文本对齐和说话者信息补充等。然后，可以使用该数据集训练说话人自适应语音合成模型，并通过客观和主观的评价指标评估模型的性能。此外，GLOBE数据集还可以用于研究更个性化的语音合成模型和缓解偏差。

背景与挑战

背景概述

随着深度学习技术的快速发展，文本到语音合成（TTS）领域取得了显著的进步。然而，现有的TTS系统在适应具有口音的说话者方面存在泛化能力不足的问题。为了解决这一问题，Wenbin Wang等人创建了GLOBE数据集。GLOBE是一个高质量的英语语料库，包含了来自全球23,519位说话者的语音数据，覆盖了164种不同的英语口音，并提供了详细的说话者元数据。该数据集通过严格的过滤和增强过程，显著提高了语音数据的质量，并补充了缺失的说话者元数据。GLOBE数据集的创建旨在提高零样本说话者自适应TTS模型的泛化能力，使其能够更好地适应具有不同口音的说话者。

当前挑战

GLOBE数据集面临的主要挑战包括：1) 提高TTS模型对具有口音的说话者的泛化能力；2) 构建过程中，如何从原始的Common Voice数据集中筛选和增强高质量的语音样本；3) 如何准确地为说话者标注口音标签并补充缺失的元数据。为了解决这些挑战，研究团队采用了信号噪声比（SNR）等指标来评估语音样本的质量，并移除了低质量、带宽受限的音频样本。同时，通过预训练的自动语音识别模型和加权有限状态转换器对语音文本进行对齐，并使用预测模型来补充缺失的说话者元数据。这些方法有效地提高了GLOBE数据集的质量和泛化能力。

常用场景

经典使用场景

GLOBE数据集以其全球口音的高质量英语语料库而著称，特别是在解决零样本说话人自适应文本到语音（TTS）系统的局限性方面发挥着重要作用。该数据集的建立旨在克服现有TTS系统在适应具有口音的说话人时表现出的泛化能力差的问题。GLOBE包含了来自全球超过23,519位说话人的语音样本，覆盖了164种不同的口音，并提供了详细的说话人元数据。这使得GLOBE成为研究说话人自适应TTS的理想选择，尤其是在零样本场景下，即TTS模型能够快速适应训练数据集中未包含的新说话人声音。

解决学术问题

GLOBE数据集的创建解决了当前零样本说话人自适应TTS研究中存在的关键问题：模型对带口音的说话人的泛化能力有限。尽管增加了模型参数和扩大了训练数据集，但这一问题仍然存在。GLOBE通过包含大量具有全球口音的说话人，显著提高了TTS模型的泛化能力。此外，GLOBE的数据处理流程严格过滤和增强了语音数据的质量，并通过预测模型补充了缺失的说话人元数据，从而提高了说话人自适应TTS模型的准确性和自然度。

实际应用

GLOBE数据集在实际应用中具有广泛的前景。它不仅可以用于构建更加个性化的TTS系统，还可以用于开发能够适应不同口音的语音识别和语音合成系统。此外，GLOBE还可以用于研究说话人识别、说话人验证和其他语音处理任务。通过提供高质量的语音数据和详细的说话人元数据，GLOBE为研究人员和开发者提供了宝贵的资源，有助于推动语音技术领域的发展。

数据集最近研究