GLOBE_V3

Hugging Face2025-05-25 更新2025-05-26 收录

下载链接：

https://huggingface.co/datasets/MushanW/GLOBE_V3

下载链接

链接失效反馈

官方服务：

资源简介：

GLOBE是一个高质量的世界英语口音语料库，旨在解决当前零样本说话人自适应文本到语音(TTS)系统在适应带有口音的说话人时存在的泛化能力不足的问题。与常用的英语语料库LibriTTS和VCTK相比，GLOBE语料库独特之处在于包含了来自23519位说话人的发音，覆盖了全球164种口音，并且为这些说话人提供了详细的元数据。GLOBE通过严格的过滤和增强过程显著提高了语音数据的质量，并补充了所有缺失的说话人元数据。最终的GLOBE语料库包含了535小时的24kHz采样率的语音数据。

创建时间：

2025-05-18

原始信息汇总

数据集概述：GLOBE_V3

基本信息

语言：英语 (en)
许可证：CC0 1.0 (cc0-1.0)
源数据集：mozilla-foundation/common_voice_14_0

任务类别

文本到音频 (text-to-audio)
自动语音识别 (automatic-speech-recognition)
音频到音频 (audio-to-audio)
音频分类 (audio-classification)

数据集配置

默认配置：
- 测试集 (test): data/test-*
- 开发集 (dev): data/dev-*
- 训练集 (train): data/train-*

数据集特征

音频 (audio): 采样率 24kHz
信噪比 (snr): float32
Whisper转录 (whisper_transcription_large_v3): string
UTMOS评分 (utmos): float32
词错误率 (wer): float32
字错误率 (cer): float32
预测性别 (predicted_gender): string
预测口音 (predicted_accent): string
预测年龄 (predicted_age): string
Common Voice路径 (common_voice_path): string
Common Voice句子ID (common_voice_sentence_id): string
Common Voice句子 (common_voice_sentence): string
Common Voice年龄 (common_voice_age): string
Common Voice性别 (common_voice_gender): string
Common Voice口音 (common_voice_accents): string

数据集统计

测试集：
- 字节数: 2,259,911,844.426
- 样本数: 9,179
开发集：
- 字节数: 2,419,283,219.841
- 样本数: 9,603
训练集：
- 字节数: 178,256,158,429.5
- 样本数: 704,750
下载大小: 178,190,886,825
数据集大小: 182,935,353,493.767

重要通知

音频数据仍在上传中，由于网络不稳定，可能需要一周时间完成。

版本差异 (V3与V1/V2)

基于 Common Voice 21.0 英语子集构建。
仅包含与 Whisper V3 LARGE 转录完全匹配的语音 (CER == 0)。
包含原始 Common Voice 元数据 (年龄、性别、口音和ID)。
所有音频文件采样率为 24kHz。
所有音频文件未经增强。

数据集简介 (GLOBE)

目的：解决零样本说话人自适应文本到语音 (TTS) 系统在适应带口音说话人时的泛化能力差的问题。
特点：
- 包含来自 23,519 名说话人的语音。
- 覆盖全球 164 种口音。
- 提供详细的说话人元数据。
数据质量：通过严格筛选和增强过程显著提高语音质量，并补充所有缺失的说话人元数据。
最终数据：535 小时 24 kHz 采样率的语音数据。

引用

bibtex @misc{wang2024globe, title={GLOBE: A High-quality English Corpus with Global Accents for Zero-shot Speaker Adaptive Text-to-Speech}, author={Wenbin Wang and Yang Song and Sanjay Jha}, year={2024}, eprint={2406.14875}, archivePrefix={arXiv}, }

搜集汇总

数据集介绍

构建方式

GLOBE_V3数据集基于Mozilla Common Voice 21.0英文子集构建，通过严格的筛选机制确保数据质量。构建过程中采用Whisper V3 LARGE模型进行转录验证，仅保留字符错误率为零的语音样本，同时整合原始说话人的年龄、性别和口音等元数据。所有音频文件统一采样率为24kHz，并保持未增强的原始状态，为语音合成研究提供纯净的声学基础。

特点

该数据集涵盖全球164种口音，包含23,519名说话人的535小时高质量语音数据，具有显著的口音多样性和人口统计代表性。每条数据均附带信噪比、语音质量评分及说话人属性标签，支持多任务语音处理研究。与LibriTTS等传统语料相比，GLOBE_V3在保持自然度的同时强化了口音覆盖广度，为零样本语音合成系统的泛化能力评估提供关键支撑。

使用方法

数据集按训练集、开发集和测试集划分，可直接用于文本转语音、语音识别等任务的模型训练与评估。使用者可通过加载标准音频格式及对应元数据字段，实现说话人自适应合成系统的零样本调优。该资源兼容主流深度学习框架，其分层结构便于开展跨口音泛化实验，相关基准测试结果已验证其在提升说话人相似度方面的有效性。

背景与挑战

背景概述

GLOBE_V3数据集于2024年由Wenbin Wang、Yang Song和Sanjay Jha等研究人员构建，旨在解决零样本说话人自适应文本到语音（TTS）系统在适应带口音说话人时泛化能力不足的核心问题。该数据集基于Common Voice 21.0英语子集，通过严格筛选和增强处理，最终包含535小时、24kHz采样率的高质量语音数据，覆盖全球164种口音的23,519名说话人。GLOBE_V3的发布显著提升了多口音TTS模型的研究基准，为语音合成领域的包容性和实用性提供了关键数据支撑。

当前挑战

GLOBE_V3致力于应对多口音TTS建模中说话人相似性与自然度平衡的挑战，其构建过程需克服原始语音质量参差、口音标注缺失以及数据规模与纯净度权衡等难题。具体而言，数据集通过Whisper V3大型模型精确匹配转录文本（CER为零），并补充说话人年龄、性别和口音等元数据，但未增强的音频文件仍可能限制低信噪比场景下的模型性能。

常用场景

经典使用场景

在语音技术研究领域，GLOBE_V3数据集作为高质量多口音英语语料库，其经典使用场景主要集中在零样本说话人自适应文本到语音合成系统的开发与评估。该数据集通过整合全球164种口音、23,519名说话人的语音样本，为模型训练提供了丰富的声学多样性基础。研究人员利用其24kHz高采样率的未增强音频数据，能够有效构建具备强泛化能力的TTS系统，特别是在模拟不同地域口音的语音生成任务中表现卓越。

解决学术问题

GLOBE_V3数据集主要解决了当前零样本说话人自适应TTS系统在口音泛化方面的学术瓶颈。传统模型如LibriTTS和VCTK受限于口音覆盖不足，导致对非标准口音说话人的适配效果不佳。该数据集通过严格的质控流程（如Whisper V3转录校验）和完整元数据标注，显著提升了语音质量与说话人特征的关联性，为研究口音变异对语音合成的影响提供了可靠数据支撑，推动了多口音TTS技术的理论突破。

衍生相关工作

GLOBE_V3已催生多项经典研究工作，例如其基准测试框架被用于评估不同TTS架构在口音适应任务中的性能。相关衍生工作聚焦于元数据驱动的说话人嵌入优化，如利用年龄、性别、口音等属性构建细粒度声学模型。部分研究进一步扩展了数据集的增强版本，结合语音修复技术提升低质量样本的可用性，为多模态语音合成研究提供了新的实验范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集