five

Voice-Zero

收藏
github2026-03-17 更新2026-03-17 收录
下载链接:
https://github.com/OwenTyme/voice-zero
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个开源兼容的语音样本集合,主要来自公共领域和创作共用作品,适合用于零样本文本到语音引擎。主要目标是提供高质量的语音样本,可以直接用于零样本TTS引擎,如Chatterbox和Pocket TTS。次要目标是提供一个清晰的追踪路径,从最终的语音样本追溯到配音演员和原始源文件,以便给予应有的荣誉。

This is an open-source-compatible collection of speech samples primarily sourced from public domain and Creative Commons-licensed works, tailored for zero-shot text-to-speech engines. Its primary objective is to provide high-quality speech samples that can be directly utilized in zero-shot TTS engines such as Chatterbox and Pocket TTS. The secondary objective is to offer a clear audit trail for tracing final speech samples back to their corresponding voice actors and original source files, so that proper credit can be duly accorded.
创建时间:
2026-03-02
原始信息汇总

Voice-Zero 数据集概述

数据集基本信息

  • 数据集名称:Voice-Zero
  • 主要目标:提供高质量、可直接用于零样本文本转语音(TTS)引擎的语音样本。
  • 次要目标:为最终语音样本提供清晰的溯源信息,直至原始源文件和配音演员,以确保给予应有的署名。
  • 许可证:除非另有说明,存储库中的所有文件均采用 CC0 许可证。当前所有样本均基于来自 LibriVox.orgArchive.org 的样本。

数据内容与结构

  • voices 目录:包含来自 LibriVox.org 的音频样本。这些样本经过降噪处理,并被裁剪至7到大约12秒的长度,此长度适用于零样本TTS引擎。该目录将始终包含 CC0 许可证 的样本。
  • voices-emotion 目录:包含使用 voices 目录中的样本通过 Chatterbox 生成的合成音频样本,用于产生情感变化。
  • 其他目录:如果存在其他许可证下的样本,将被放置在其他目录中,以保持许可证问题的清晰和易于处理。

数据处理流程

语音样本在输入 Chatterbox 前,会经过以下清理流程:

  1. 导入 Audacity
  2. 将样本裁剪至1到3个句子,长度为8-11秒。
  3. 使用 Audacity 的噪声消除工具去除最严重的噪声。
  4. 使用 VAD% 设置为 99 的 RNNoise
  5. 通过改变速度来调整语速过快或过慢的说话者。
  6. 在 -8 dB 处进行归一化。
  7. 保存样本。
  8. 使用 Kanade 重新合成样本,以消除混响和 RNNoise 无法处理的其他问题。
  9. 通过 SoX 再次进行归一化。
  10. 通过 Resemble Enhance 将样本升级到 44 kHz。

适用工具与引擎

  • 目标TTS引擎ChatterboxPocket TTS
  • 数据处理工具:Audacity、Kanade Tokenizer、SoX、Resemble Enhance、RNNoise。

贡献指南

欢迎在以下两个领域做出贡献:

  • 口音分类:特别是帮助按地区分类各种美国口音;澄清可能混入的加拿大口音;纠正可能被错误列为英语的其他英国地区口音。
  • 语音建议:欢迎提出 LibriVox 语音建议;也会考虑来自其他来源的语音样本;请勿建议非公共领域的语音样本;需要带有口音的语音。
  • 注意事项:维护者仅懂英语,不接受其他语言的语音建议,因为降噪步骤需要理解所说的内容。
搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成技术快速发展的背景下,Voice-Zero数据集通过精心设计的流程构建而成。其核心来源为LibriVox.org等公开领域的语音资料,这些原始音频经过多步骤处理:首先使用Audacity进行初步修剪与降噪,将样本长度控制在7至12秒之间以适应零样本TTS引擎;随后采用RNNoise与Kanade Tokenizer进行深度噪声消除和语音重合成,有效去除混响等复杂干扰;最后通过Resemble Enhance进行音频上采样至44kHz,并统一标准化至-8dB电平。整个流程兼顾自动化脚本与人工微调,确保最终样本在保留语音自然度的同时达到工业级纯净标准。
特点
作为专为零样本文本转语音系统优化的资源,Voice-Zero展现出鲜明的技术特性。数据集严格遵循CC0许可协议,所有样本均具备完整的溯源链条,明确标注原始配音者及出处,保障了学术与商业应用的合规性。语音样本经过多层级降噪处理,在消除环境噪声与设备底噪的同时,通过重合成技术保留了语音的频谱特征与情感韵律。数据集特别设置了情感语音子集,利用Chatterbox引擎对基础样本进行情感变体合成,为情感化语音合成研究提供了结构化数据支撑。其样本长度与格式均针对主流零样本TTS引擎进行了标准化适配,实现了开箱即用的便捷性。
使用方法
在零样本语音合成的研究与应用场景中,Voice-Zero数据集提供了即插即用的解决方案。研究者可直接将voices目录中的基础语音样本输入Chatterbox、Pocket TTS等引擎,无需额外预处理即可生成高质量合成语音。对于情感合成任务,voices-emotion目录中预生成的情感变体样本可作为基准数据或模型微调素材。数据集采用分层目录结构管理不同许可类型的样本,使用者需查阅各子目录的README文件以确认具体许可条款与配音者信息。在扩展应用时,建议遵循贡献指南中的语音建议规范,重点关注带口音的英语样本,以丰富语音多样性。
背景与挑战
背景概述
在零样本文本到语音合成技术迅猛发展的背景下,Voice-Zero数据集应运而生,旨在为研究者与开发者提供高质量、可直接使用的开源语音样本。该数据集主要由公共领域及知识共享许可的音频资源构成,特别适配于Chatterbox和Pocket TTS等零样本TTS引擎。其核心研究问题聚焦于如何构建一个兼具清晰溯源路径与高音频质量的语音库,以推动零样本语音合成在多样性与真实性方面的进步。通过系统化的音频清洗流程,包括降噪、速度调整与重合成等步骤,Voice-Zero不仅提升了样本的可用性,也为语音合成领域的开源协作树立了典范。
当前挑战
Voice-Zero数据集面临的挑战主要体现在两个方面:在领域问题层面,零样本TTS技术需应对语音样本在跨说话人、跨情感表达时的泛化能力不足,以及合成语音的自然度与情感保真度之间的平衡难题;在构建过程中,数据集需克服原始音频来源的噪声干扰、采样率不一致及口音分类模糊等障碍,同时确保所有样本符合严格的版权许可要求,并维护从最终样本到原始作者的可追溯链条,这对数据清洗与元数据管理提出了较高要求。
常用场景
经典使用场景
在零样本文本到语音合成领域,Voice-Zero数据集为研究者提供了高质量的语音样本,这些样本经过精心处理,适用于Chatterbox和Pocket TTS等引擎的直接使用。数据集中的语音片段长度控制在7至12秒之间,这一设计优化了零样本TTS模型的输入条件,使得模型能够更准确地捕捉说话者的声学特征和情感表达。通过提供清晰的原始来源追溯路径,该数据集不仅支持技术实验,还强调了学术伦理中的版权透明性。
实际应用
在实际应用中,Voice-Zero数据集为开发者和企业提供了即用型语音素材,可直接集成到智能助手、有声读物生成和个性化语音交互系统中。其经过优化的语音样本能够有效提升TTS引擎的输出自然度和稳定性,特别是在需要快速部署多说话人语音合成的场景下。此外,数据集强调的版权透明性有助于商业产品合规使用开源资源,降低了法律风险,促进了语音技术在教育、娱乐等行业的落地。
衍生相关工作
围绕Voice-Zero数据集,已衍生出多项经典研究工作,主要集中在零样本TTS模型的性能优化和情感语音合成领域。例如,基于该数据集的情感变体样本,研究者开发了能够生成多种情绪语音的扩展模型,进一步探索了跨情感状态的声学特征迁移。同时,数据集的清理流程也启发了后续工具链的改进,如集成更高效的噪声抑制算法,这些工作共同推动了开源语音合成社区在数据预处理和模型泛化能力方面的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作