cheatterbox-voices

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/Olbrasoft/cheatterbox-voices

下载链接

链接失效反馈

官方服务：

资源简介：

Cheatterbox Czech Voice References 是一个专为捷克语文本到语音（TTS）任务设计的数据集，包含参考WAV文件、脚本和Colab笔记本。该数据集基于Chatterbox模型及其捷克语微调版本，旨在支持语音克隆研究。数据集包含多位捷克演员/角色的预标准化WAV文件，每个文件都有特定的用途描述，如叙述者、平静的男性声音、尖锐的女性声音等。此外，数据集还提供了一个预加载的JSON脚本，包含一个科幻故事的248个片段，使用12种不同的声音，总时长约45分钟。所有WAV文件均为单声道，16 kHz，16位PCM格式，预标准化为-22 dBFS RMS，峰值限制为-1 dBFS。数据集的使用仅限于个人语音克隆研究，参考样本来源于公开的捷克电视/电影录音。

Cheatterbox Czech Voice References is a dataset specifically designed for Czech text-to-speech (TTS) tasks, containing reference WAV files, scripts, and Colab notebooks. The dataset is based on the Chatterbox model and its Czech fine-tuned version, aiming to support voice cloning research. The dataset includes pre-normalized WAV files of multiple Czech actors/characters, each with specific usage descriptions, such as narrator, calm male voice, sharp female voice, etc. Additionally, the dataset provides a pre-loaded JSON script containing 248 segments of a sci-fi story, using 12 different voices, with a total duration of approximately 45 minutes. All WAV files are mono, 16 kHz, 16-bit PCM format, pre-normalized to -22 dBFS RMS, with peak limiting at -1 dBFS. The use of the dataset is limited to personal voice cloning research, and the reference samples are sourced from publicly available Czech TV/movie recordings.

创建时间：

2026-04-26

原始信息汇总

数据集概览：Cheatterbox Czech Voice References

该数据集为捷克语文本转语音（TTS）任务提供参考音频、脚本和工具，专门用于结合 Chatterbox 模型及其捷克语微调版本。

基本信息

任务类型：文本转语音（text-to-speech）
语言：捷克语（cs）
标签：语音克隆、Chatterbox、捷克语、参考音频
数据规模：少于1K个样本（n<1K）
许可证：其他（参考音频来源于公共捷克影视录音，仅限个人语音克隆研究使用）

数据集内容

数据集包含以下组件：

参考语音库（WAV文件）：预归一化处理（-22 dBFS RMS，-1 dBFS峰值限制），单声道，16 kHz采样率，16-bit PCM格式。包含12位捷克演员/角色声音，具体如下：

标识符	演员/角色	用途
`moravec`	Miroslav Moravec	讲述者，低沉嗓音
`bartoska`	Jiří Bartoška	平静，平民男性
`rimsky`	Pavel Římský	干涩，面无表情男性
`rossner`	Boris Rössner	角色男性
`lukavsky`	Radovan Lukavský	年长权威男性
`kostka`	Petr Kostka	温暖男性
`stransky`	Martin Stránský	中性，AI/职员
`adamovska`	Zlata Adamovská	指挥官，尖锐女性
`balzerova`	Eliška Balzerová	年轻，温柔女性
`boudova`	Nela Boudová	女性AI/辅助角色
`postlerova`	Simona Postlerová	中年教师
`cerna`	Dana Černá	年长女性，看护者

预加载脚本（JSON文件）：位于 scripts/ 目录下，包含一个示例脚本：
- leto-v-astralisu.json：科幻短篇小说，包含248个片段，使用12种声音，生成约45分钟音频。
Colab笔记本：cheatterbox_studio.ipynb，可直接在Google Colab中运行，支持选择脚本、生成并下载ZIP音频文件。

使用方式

Google Colab：点击页面上的“Open In Colab”徽章，选择T4 GPU运行时，运行全部单元格，打开生成的Gradio链接即可使用。
Python代码（使用Hugging Face Hub）： python from huggingface_hub import snapshot_download

voices_dir = snapshot_download(Olbrasoft/cheatterbox-voices, repo_type=dataset)

voices_dir/moravec.wav, bartoska.wav, ...

voices_dir/scripts/leto-v-astralisu.json

voices_dir/cheatterbox_studio.ipynb

脚本JSON格式

json { "name": "moje-povidka", "script": [ {"voice": "moravec", "text": "..."}, {"voice": "balzerova", "text": "..."} ] }

许可证说明

参考音频样本来源于捷克公共电视/电影录音，仅限个人语音克隆研究使用。Chatterbox基础模型采用MIT许可证，捷克微调版本采用CC0-1.0许可证。

搜集汇总

数据集介绍

构建方式

在语音合成研究领域，高质量参考音频数据集对模型微调至关重要。Cheatterbox Voices数据集专为捷克语文本转语音任务而设计，其构建过程严谨规范。数据集的音频样本均来源于捷克知名演员的公开影视录音，并经过专业后处理：所有WAV文件被统一归一化为-22 dBFS RMS响度，峰值限制在-1 dBFS，同时转换为16 kHz采样率、16位PCM编码的单声道格式。此外，数据集还配套提供了预制的JSON脚本文件（如科幻故事脚本）以及Colab交互式笔记本，方便用户直接调用或自定义语音克隆任务。

特点

该数据集的显著特点在于其丰富的捷克语演员声线资源。它收录了12位捷克知名演员的参考音频，包括深沉叙述型、冷静平民型、威严指挥官型等多种风格，覆盖男声与女声的不同年龄段和气质。每个音频片段都分配了唯一的slug标识符，便于在脚本中精确指定。所有样本均经过归一化处理，确保了不同声源间一致的音量水平，为多角色、长篇幅的语音合成场景提供了坚实基础。数据集规模虽小（少于1000个样本），但胜在声线多样性和即用性。

使用方法

使用方法极为直观便捷。用户可通过Hugging Face Hub的snapshot_download函数一键下载整个数据集，返回的路径中直接包含所有语音文件、脚本文件夹和Colab笔记本。推荐的工作流是点击README中的Colab徽标打开在线笔记本，将运行时切换为T4 GPU后执行全部代码，待生成的Gradio链接出现后，即可从下拉菜单中选择预置脚本或自定义上传JSON格式脚本。自定义脚本遵循简单的键值结构，只需指定voice（声线slug）与text（文本）字段，即可产出多角色有声内容。

背景与挑战

背景概述

Cheatterbox Czech Voice References数据集诞生于多语言文本转语音（TTS）技术快速发展的背景下，由Olbrasoft团队于近期创建，旨在为捷克语语音克隆提供高质量参考音频资源。该数据集依托于Resemble AI开发的Chatterbox模型及其捷克语微调版本，收录了12位捷克知名演员（如Miroslav Moravec、Jiří Bartoška等）的原始WAV语音样本，覆盖深沉叙述、温柔女性、权威指挥官等多种声线类型。核心研究问题聚焦于如何通过少量参考音频实现捷克语的高保真语音合成，为小语种TTS研究提供了稀缺的声纹基准。其对相关领域的影响力体现在：填补了捷克语在语音克隆研究中的资源空白，通过整合Colab交互式笔记本降低了使用门槛，推动了多语言TTS技术在小语种场景的落地应用。

当前挑战

该数据集面临的核心挑战包括：1）领域问题方面，捷克语作为资源匮乏语言，其语音合成长期受限于高质量、多说话人的标注数据不足，现有TTS模型在保真度、自然度和韵律多样性上表现不佳，尤其难以复现知名演员的独特音色与情感表达；2）构建过程中，团队成员需从捷克公共电视/电影录音中筛选并提取语音片段，面临版权合规性与许可限制的复杂问题（数据集仅允许个人研究使用），同时需对音频进行严格的归一化处理（如-22 dBFS RMS、16 kHz采样率），以确保不同来源的语音在响度和格式上具有一致性；此外，如何为12位说话人分配适配的脚本角色（如科幻小说《Leto v Astralisu》中的多角色分配），并确保语音克隆后的语义连贯性与声学稳定性，也是技术层面的重大挑战。

常用场景

经典使用场景

Cheatterbox Czech Voice References数据集专为捷克语文本到语音合成任务设计，其经典使用场景是结合Chatterbox模型及其捷克语微调版本，通过少量参考音频实现高质量的语音克隆。数据集提供了12位捷克知名演员或角色配音的标准化WAV文件，涵盖深沉男声、温和女声、权威老者等多种音色，用户可依据脚本JSON格式为每个文本片段指定对应声音，从而生成富有表现力且风格统一的合成语音。

实际应用

在实际应用中，Cheatterbox Voices广泛服务于有声读物制作、虚拟助手语音定制、影视配音辅助以及语言教学系统。例如，用户可利用预加载的科幻短剧脚本《leto-v-astralisu》，在Colab笔记本中一键生成包含12种不同声音的多角色音频内容，极大降低了专业语音创作的门槛。此外，该数据集还适用于辅助捷克语学习应用，通过模拟真实口语韵律提升学习体验。

衍生相关工作

基于本数据集，衍生出了一系列经典工作，包括Chatterbox模型在捷克语上的微调版本，以及围绕多说话人语音克隆的脚本生成工具。后续研究可借鉴其JSON脚本格式设计更复杂的对话合成系统，或扩展至其他斯拉夫语族语言的语音克隆任务。数据集的开源性质也促进了跨领域合作，如将参考音频与情感分类模型结合，探索情感化TTS的新方向。

以上内容由遇见数据集搜集并总结生成