semidark/hokuspokus-qwen3-tts-hybrid
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/semidark/hokuspokus-qwen3-tts-hybrid
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- de
license: cc0-1.0
size_categories:
- 1K<n<10K
task_categories:
- text-to-speech
- audio-to-audio
tags:
- tts
- kokoro
- kokoro-deutsch
- german
- voice-cloning
- synthetic-data
pretty_name: Hokuspokus Qwen3 TTS Hybrid
---
# Dataset Card for hokuspokus-qwen3-tts-hybrid
This dataset aims to provide a professional-grade German TTS training corpus. It combines high-quality human narration with state-of-the-art synthetic augmentation to provide a legally safe alternative for training models like `kokoro`.
**Work in Progress**
## Dataset Details
### Dataset Description
- **Curated by:** [Nico Thomaier/semidark]
- **Language(s) (NLP):** German (de-DE)
- **License:** CC0 1.0 Universal (Public Domain)
### Dataset Sources
- **Source Audio:** [HUI Audio Corpus / LibriVox](https://iisys.de)
- **Voice Seed:** "Hokuspokus" (Professional Narrator)
## Uses
### Direct Use
- Training and fine-tuning Text-to-Speech (TTS) models.
- Voice cloning research and speech synthesis.
- Developing [open-source German voice packs](https://github.com/semidark/kokoro-deutsch) for the `kokoro` model.
### Out-of-Scope Use
- Any use case that violates ethical AI guidelines or misrepresents the origin of the voice.
## Dataset Structure
The dataset consists of audio-transcript pairs in a format compatible with modern TTS pipelines (e.g., LJSpeech or JSONL).
- **Audio:** 24kHz or 44.1kHz Mono WAV files.
- **Transcripts:** Normalized German text.
- **Hybrid Nature:** Contains both original recordings (HUI) and synthetic samples (Qwen3).
## Dataset Creation
### Curation Rationale
The German TTS ecosystem lacks high-quality, professional-sounding voice packs that are free from proprietary licensing restrictions (e.g., AWS Polly). This dataset provides a "clean room" solution by utilizing Public Domain recordings and modern AI to bridge the gap.
### Source Data
#### Data Collection and Processing
1. **Selection:** Audio was sourced from the "Hokuspokus - Deutsche Literaturgeschichte" subset of the HUI Audio Corpus.
2. **Post-Processing:** Audio samples were denoised and normalized to studio standards.
3. **Synthetic Augmentation:** A clean 30-second reference sample was used with **Qwen-TTS-1.7B** to generate additional training data covering modern vocabulary (technology, news, and daily life) not present in historical texts.
#### Qwen TTS Seed & Examples
| Type | Description | Audio |
|------|-------------|-------|
| **Seed** | Original HUI sample used for Qwen3-TTS voice cloning (historical German literature excerpt). | <audio controls><source src="https://huggingface.co/datasets/semidark/hokuspokus-qwen3-tts-hybrid/resolve/main/qwen-tts-samples/deutsche_literaturgeschichte_oneshot.mp3" type="audio/mp3"></audio> |
| **Example 1** | Everyday vocabulary test - phrases, place names, homophones, and numbers. | <audio controls><source src="https://huggingface.co/datasets/semidark/hokuspokus-qwen3-tts-hybrid/resolve/main/qwen-tts-samples/schoen-dass-du-da-bist.mp3" type="audio/mp3"></audio> |
| **Example 2** | News-style content - interview excerpt about Salman Rushdie. | <audio controls><source src="https://huggingface.co/datasets/semidark/hokuspokus-qwen3-tts-hybrid/resolve/main/qwen-tts-samples/der-bestsellerautor-salman-rus.mp3" type="audio/mp3"></audio> |
| **Example 3** | Political content - Bavarian coalition government analysis. | <audio controls><source src="https://huggingface.co/datasets/semidark/hokuspokus-qwen3-tts-hybrid/resolve/main/qwen-tts-samples/keine-neuen-schulden-fortsetz.mp3" type="audio/mp3"></audio> |
| **Example 4** | Current affairs - SPD leadership and fuel price policy discussion. | <audio controls><source src="https://huggingface.co/datasets/semidark/hokuspokus-qwen3-tts-hybrid/resolve/main/qwen-tts-samples/spd-chef-und-finanzminister.mp3" type="audio/mp3"></audio> |
<details>
<summary><b>View Full Transcripts</b></summary>
**Seed:**
> *Auch du lieber Leser, und ich, wenn wir nur ein wenig in uns gehen und nachdenken: wir befinden uns unter jenen Narren. Sebastian Brant aus Straßburg vierzehnhundertachtundfünfzig bis fünfzehnhunderteinundzwanzig hatte als Sohn eines Gastwirts früh offene Augen für die Lächerlichkeiten und Laster seiner Mitmenschen bekommen. Es ist, als hätte Luther die neue deutsche Sprache überhaupt erst geschaffen.*
**Example 1:**
> *Schön, dass du da bist. Die Bücher liegen auf dem großen Tisch. Ich mache mich auf den Weg nach Aachen, um auch nachts wach zu sein. Er aß die Maße in der Straße, aber das Maß war voll. Zwei weiße Zwerge zwängen sich zwischen zwei Zweige. Ein Pfau pflegt seine Federn an der Pfütze. Warum hast du das getan? Das ist ja unglaublich! Das kostet genau einhundertdreiundzwanzig Millionen Euro.*
**Example 2:**
> *Der Bestsellerautor Salman Rushdie im Gespräch über eine große Schwäche des US-Präsidenten, das Weitermachen, wenn man eigentlich schon tot war – und darüber, welche Musik auf der Discoparty zu seinem 100. Geburtstag laufen soll.*
**Example 3:**
> *Keine neuen Schulden, Fortsetzung des Familiengelds, mehr Polizisten? Eine Begutachtung des bayerischen Koalitionsvertrags zur Mitte der Wahlperiode zeigt: CSU und Freie Wähler haben so manches Vorhaben begraben.*
**Example 4:**
> *SPD-Chef und Finanzminister Lars Klingbeil wagt den Konflikt mit dem Kanzler bei der Frage: Was tun gegen die hohen Spritpreise? Er verrät, ob er jetzt mehr Steuern kassiert – und umreißt, was ihm bei seinem Reformplan für Deutschland am wichtigsten ist.*
</details>
#### Who are the source data producers?
- **Human Narrator:** "Hokuspokus", a prolific volunteer narrator for LibriVox.
- **Synthetic Engine:** Qwen3-TTS-1.7B (Zero-shot voice cloning).
### Personal and Sensitive Information
No personal or sensitive information is included. All source texts are historical literary works or publicly available modern datasets.
## Bias, Risks, and Limitations
- **Historical Language:** Original HUI samples may contain archaic German terminology.
- **Synthetic Artifacts:** While high-quality, synthetic samples might contain minor AI-generated artifacts.
## Citation
If you use this dataset, please credit the original narrator and the HUI Audio Corpus project:
- **Hokuspokus / LibriVox**
- **HUI Audio Corpus German (IISYS Hof)**
## Dataset Card Contact
https://github.com/semidark/
---
语言:
- 德语
许可协议:CC0 1.0 通用公共领域许可
样本规模:1000 < 样本量 < 10000
任务类别:
- 文本转语音(Text-to-Speech, TTS)
- 音频转音频
标签:
- TTS
- kokoro
- kokoro-deutsch
- 德语
- 语音克隆
- 合成数据
数据集名称:Hokuspokus Qwen3 TTS 混合数据集
---
# 数据集卡片:hokuspokus-qwen3-tts-hybrid
本数据集旨在打造专业级德语文本转语音(TTS)训练语料库,融合高质量真人有声朗读与前沿合成数据增强技术,为`kokoro`等模型的训练提供合法合规的替代方案。
**【开发中】**
## 数据集详情
### 数据集描述
- **整理者:** [Nico Thomaier/semidark]
- **自然语言处理所用语言:** 德语(德国标准德语,de-DE)
- **许可协议:** CC0 1.0 通用公共领域许可
### 数据集来源
- **源音频:** [HUI音频语料库 / 利比沃克斯(LibriVox)](https://iisys.de)
- **语音基准样本:** "Hokuspokus"(专业有声朗读者)
## 应用场景
### 直接使用场景
- 文本转语音(TTS)模型的训练与微调
- 语音克隆研究与语音合成
- 为`kokoro`模型开发[开源德语语音包](https://github.com/semidark/kokoro-deutsch)
### 禁止使用场景
- 任何违反人工智能伦理准则,或篡改该语音来源的使用场景。
## 数据集结构
本数据集采用适配现代TTS处理流程的格式(如LJSpeech或JSONL),由音频-文本对组成。
- **音频:** 24kHz或44.1kHz单声道WAV文件
- **文本:** 经过标准化处理的德语文本
- **混合属性:** 同时包含原始录制音频(HUI语料库)与合成音频样本(Qwen3生成)
## 数据集构建
### 整理初衷
当前德语TTS生态系统缺乏高质量、专业音质且无专有许可限制的语音包(如AWS Polly)。本数据集利用公共领域音频资源与现代人工智能技术,打造“洁净室”式解决方案,填补这一空白。
### 源数据
#### 数据收集与处理流程
1. **筛选:** 音频源自HUI音频语料库的"Hokuspokus - 德国文学史"子数据集
2. **后期处理:** 对音频样本进行降噪处理,并按照专业演播室标准进行音量归一化
3. **合成数据增强:** 选取一段30秒的干净参考样本,结合**Qwen-TTS-1.7B**生成额外训练数据,覆盖历史文本中未出现的现代词汇(科技、新闻与日常用语)。
#### Qwen TTS 基准样本与示例
| 类型 | 描述 | 音频链接 |
|------|-------------|-------|
| **基准样本** | 用于Qwen3-TTS语音克隆的原始HUI音频样本(德国历史文学节选)。 | <audio controls><source src="https://huggingface.co/datasets/semidark/hokuspokus-qwen3-tts-hybrid/resolve/main/qwen-tts-samples/deutsche_literaturgeschichte_oneshot.mp3" type="audio/mp3"></audio> |
| **示例1** | 日常词汇测试——涵盖短语、地名、同音词与数字。 | <audio controls><source src="https://huggingface.co/datasets/semidark/hokuspokus-qwen3-tts-hybrid/resolve/main/qwen-tts-samples/schoen-dass-du-da-bist.mp3" type="audio/mp3"></audio> |
| **示例2** | 新闻风格内容——关于萨尔曼·鲁西迪(Salman Rushdie)的访谈节选。 | <audio controls><source src="https://huggingface.co/datasets/semidark/hokuspokus-qwen3-tts-hybrid/resolve/main/qwen-tts-samples/der-bestsellerautor-salman-rus.mp3" type="audio/mp3"></audio> |
| **示例3** | 政治内容——巴伐利亚联合政府分析。 | <audio controls><source src="https://huggingface.co/datasets/semidark/hokuspokus-qwen3-tts-hybrid/resolve/main/qwen-tts-samples/keine-neuen-schulden-fortsetz.mp3" type="audio/mp3"></audio> |
| **示例4** | 时事新闻——关于社民党(SPD)领导层与燃油价格政策的讨论。 | <audio controls><source src="https://huggingface.co/datasets/semidark/hokuspokus-qwen3-tts-hybrid/resolve/main/qwen-tts-samples/spd-chef-und-finanzminister.mp3" type="audio/mp3"></audio> |
<details>
<summary><b>查看完整文本</b></summary>
**基准样本:**
> *亲爱的读者,还有我自己,当我们稍稍审视内心、沉下心思考时便会发现:我们正身处这群愚人之中。来自斯特拉斯堡的塞巴斯蒂安·布兰特(1458年至1521年)身为客栈老板之子,自幼便对同类的荒诞与恶习有着敏锐的洞察力。仿佛正是路德,才真正缔造了全新的德语。*
**示例1:**
> *很高兴你能来。书都放在大桌子上了。我正要前往亚琛,即便到了夜里也会保持清醒。他在街上按尺寸量东西,但那尺寸刚好合适。两只白色的小矮人挤在两根树枝之间。一只孔雀在水坑里整理羽毛。你为什么要这么做?这简直不可思议!这东西正好值一亿二千三百万欧元。*
**示例2:**
> *畅销书作家萨尔曼·鲁西迪谈及美国总统的一大弱点:即便本已“死去”却仍要继续前行——以及在他的百岁 disco 派对上应该播放何种音乐。*
**示例3:**
> *不新增债务、延续家庭补贴、增加警力?对巴伐利亚联合执政协议在任期中期的评估显示:基社盟(CSU)与自由选民党已将诸多计划束之高阁。*
**示例4:**
> *社民党主席兼财政部长拉斯·克林贝尔(Lars Klingbeil)就应对高燃油价格的问题,敢于与总理产生分歧。他透露了自己是否会新增税收,并阐述了其德国改革计划中最为重要的内容。*
</details>
#### 源数据生产者信息
- **真人朗读者:** "Hokuspokus",利比沃克斯(LibriVox)的高产志愿朗读者
- **合成引擎:** Qwen3-TTS-1.7B(零样本(Zero-shot)语音克隆)
## 个人与敏感信息
本数据集未包含任何个人或敏感信息。所有源文本均为历史文学作品或公开可用的现代数据集。
## 偏差、风险与局限性
- **历史语言问题:** 原始HUI音频样本可能包含古德语术语
- **合成伪影问题:** 尽管合成音频质量较高,但仍可能存在少量人工智能生成的伪影。
## 引用说明
若使用本数据集,请注明原朗读者与HUI音频语料库项目:
- **Hokuspokus / 利比沃克斯(LibriVox)**
- **HUI德语音频语料库(IISYS Hof)**
## 数据集卡片联系方式
https://github.com/semidark/
提供机构:
semidark
搜集汇总
数据集介绍

构建方式
在德语文本到语音合成领域,高质量训练数据的稀缺性促使本数据集采用了一种创新的混合构建策略。其核心流程始于利用Gemma4 26B模型生成涵盖叙事、对话、新闻、技术、医学等十二个领域的多样化德语文本语料,并通过n-元组重叠阈值等质量控制机制确保内容的丰富性与独特性。随后,文本经过专门设计的规范化处理流程,将数字、日期及缩写等书面形式转换为标准的口语表达。音频部分则巧妙融合了来自HUI音频库的公共领域专业人声录音,以及基于Qwen3-TTS 1.7B模型通过零样本语音克隆技术生成的合成语音,从而构建了一个兼具历史真实性与现代词汇覆盖度的语料库。
特点
本数据集的显著特征在于其精心设计的混合架构与专业级质量。它不仅平衡地覆盖了十二个不同的语义领域,确保模型能学习到多样化的语言风格与语境,还专门设置了针对数字、日期等边缘案例的规范化训练类别,以提升合成语音在复杂表达上的自然度。数据集提供了原始文本与规范化后文本的配对,为模型训练提供了极大便利。其音频部分结合了经过降噪与标准化处理的原始专业人声,以及利用先进合成引擎生成的、涵盖现代生活词汇的高质量语音,有效弥补了历史语料在当代语境下的不足,为德语TTS研究提供了既合法合规又技术前沿的资源。
使用方法
为便于研究人员高效利用,数据集提供了清晰的标准化处理与音频生成脚本。用户可首先运行`normalize_corpus.py`脚本对原始文本语料进行规范化转换,生成包含原始与口语化文本对的JSONL文件。对于音频生成,可利用`generate_tts_audio.py`脚本,通过指定批次大小等参数,调用Qwen3-TTS模型进行零样本语音克隆与合成。整个流程支持断点续传,用户可通过`--resume`参数恢复中断的任务,或使用`--regenerate`参数针对特定领域重新生成数据,确保了大规模数据处理的可操作性与灵活性。
背景与挑战
背景概述
在德语语音合成领域,长期以来缺乏高质量、专业音质且无商业许可限制的开源训练数据。为应对这一挑战,数据集hokuspokus-qwen3-tts-hybrid应运而生,由Nico Thomaier(semidark)主导构建。该数据集旨在提供一个专业级的德语文本转语音训练语料库,其核心研究问题聚焦于如何融合高质量的人类叙述录音与前沿的合成增强技术,以创造一种在法律上安全、内容上现代的替代方案,用于训练如kokoro等开源语音模型。通过采用公共领域的原始录音与现代人工智能技术,该数据集有效弥合了历史文献与现代词汇之间的鸿沟,对推动德语开源语音生态系统的发展具有显著影响力。
当前挑战
该数据集致力于解决德语文本转语音任务中的核心挑战,即生成自然、流畅且涵盖现代生活各类语境的高质量合成语音。具体挑战包括:模型需准确处理德语中复杂的文本规范化问题,如数字、日期、缩写及货币单位到口语形式的转换;同时需确保合成语音在多样性、情感表达及专业术语发音上的自然度。在构建过程中,挑战同样显著:需精心设计文本生成策略以避免内容重复并平衡12个不同领域的样本;音频合成阶段面临计算资源密集型任务,需高效管理并行处理与容错机制;此外,如何将历史录音的语音特征无缝迁移至涵盖现代技术、新闻等新词汇的合成音频中,亦构成了关键的技术难点。
常用场景
经典使用场景
在德语语音合成领域,高质量训练数据的匮乏长期制约着开源模型的发展。该数据集通过融合专业人类录音与先进合成增强技术,为训练如kokoro等文本转语音模型提供了经典范例。其精心构建的文本-音频对覆盖叙事、对话、新闻、技术等十二个领域,并特别包含数字、日期等标准化训练样本,确保了模型在多样化语境下的自然表达与鲁棒性。
实际应用
该数据集的实际应用直接服务于德语区数字内容的无障碍访问与媒体生产。它可用于开发开源德语语音包,赋能教育软件、有声读物、智能助手及新闻播报等场景,提供自然流畅的合成语音。同时,其清晰的授权协议为商业与学术项目提供了安全、免版税的语音解决方案,降低了技术应用的门槛与法律风险。
衍生相关工作
围绕该数据集,已衍生出针对kokoro模型的开源德语语音包等直接应用项目。其构建方法论,特别是利用大语言模型生成多样化文本、结合零样本语音克隆进行数据增强的流程,为后续构建其他语言或专业领域的合成语音数据集提供了可复用的技术框架与工程实践参考。
以上内容由遇见数据集搜集并总结生成



