hui-german-51speakers

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/dida-80b/hui-german-51speakers

下载链接

链接失效反馈

官方服务：

资源简介：

HUI German — 51 Speakers 数据集是 HUI Audio Corpus German 的一个精选子集，专门用于德语多说话人文本到语音（TTS）任务。该数据集包含 51 位说话人（24 位男性，27 位女性），经过严格的音频质量过滤和手动审核。数据集提供了 20,495 个训练样本和 418 个验证样本，每个说话人的音频时长限制在 60 分钟以内，以确保训练平衡。音频采样率为 24 kHz，片段时长为 1-20 秒。数据集还包括说话人 ID 到名称的映射文件，以及用于构建训练/验证列表和质量检查的脚本。适用任务包括多说话人 TTS 模型训练，如 StyleTTS2 或 Kokoro-deutsch。

创建时间：

2026-04-13

原始信息汇总

HUI German — 51 Speakers 数据集概述

数据集基本信息

语言：德语 (de)
许可协议：CC0 1.0
主要任务类别：文本转语音 (text-to-speech)
标签：text-to-speech, german, styletts2, kokoro, multispeaker, hui-corpus
来源：基于 HUI Audio Corpus German (CC0) 创建的精选训练分割，用于德语多说话人文本转语音。

内容与文件

train_list.txt：包含 20,495 个训练样本，格式为 路径|转录文本|说话人ID。
val_list.txt：包含 418 个验证样本。
speaker_map.txt：说话人ID到姓名的映射（共51位说话人）。
build_train_list.py：用于构建训练/验证列表的脚本，包含时长上限和加权采样功能。
quality_check.py：自动化质量检查脚本，可为每位说话人生成HTML报告。

数据集统计

说话人信息

原始语料库说话人数：122位
筛选后说话人数：51位
男性说话人：24位 (47%)
女性说话人：27位 (53%)
每位说话人最小时长：5分钟（原始音频）

音频信息

训练样本数：20,495
验证样本数：418
原始说话人时长分布：严重不平衡
总有效时长：约51小时
采样率：24 kHz
音频片段时长范围：1秒至20秒

质量筛选标准

检查项	阈值
最小RMS	-42 dB
最大削波	0.1%
最大静音比例	50%
最小时长	1秒
最大时长	20秒
人工审核	全部51位说话人均经过审核

构建方法

说话人选择：首先使用自动化质量过滤器 (quality_check.py)，然后对全部122位说话人进行人工听音检查。71位说话人因噪音、麦克风质量不一致或数据不足被排除。
时长上限：为每位说话人设置60分钟上限，以防止数据量过大的说话人（如Bernd_Ungerer，原始时长达81小时）主导训练批次。
加权采样：由于原始说话人时长严重不平衡，对原始音频少于60分钟的说话人，按其时长比例进行样本复制，确保在训练批次中所有51位说话人的出现频率相同，从而使所有说话人嵌入获得相同的梯度更新率。

使用说明

从 https://opendata.iisys.de/dataset/hui-audio-corpus-german/ 下载 HUI Audio Corpus。
将音频重采样至24 kHz。
运行 quality_check.py 以验证本地副本是否符合筛选标准。
直接使用 train_list.txt 和 val_list.txt 进行 StyleTTS2 或 kokoro-deutsch 模型训练。

相关资源

基于此数据集训练的模型：https://huggingface.co/dida-80b/kokoro-deutsch-hui-base
训练代码：https://github.com/semidark/kokoro-deutsch
原始语料库：https://github.com/iisys-hof/HUI-Audio-Corpus-German

搜集汇总

数据集介绍

构建方式

在德语多说话人语音合成领域，数据集的构建需兼顾规模与质量。本数据集源自HUI德语音频语料库，通过自动化质量筛选与人工听检相结合的方式，从原始122位说话人中遴选出51位符合标准的说话人。为确保训练数据的均衡性，对每位说话人的音频施加了60分钟的上限约束，并采用加权采样算法平衡不同说话人的样本出现频率，有效避免了数据分布不均对模型收敛的负面影响。

使用方法

使用本数据集前，需从官方源下载原始HUI音频语料库，并将其重采样至24kHz。随后可运行附带的质检脚本验证本地数据是否符合筛选标准。数据集提供的训练与验证列表文件可直接用于StyleTTS2或kokoro-deutsch等语音合成框架，每条数据以“文件路径|文本转录|说话人ID”的格式组织，便于模型读取与训练。

背景与挑战

背景概述

德语多说话人语音合成领域长期面临高质量、多样化语音数据的稀缺问题，这制约了合成语音的自然度与表现力。在此背景下，HUI German — 51 Speakers数据集应运而生，由德国IISYS研究所的研究人员Pascal Puchtler、Johannes Wirth和René Peinl基于HUI德语音频语料库精心构建。该数据集聚焦于解决德语多说话人文本到语音合成的核心研究需求，通过严格筛选与平衡处理，提供了51位说话人、总计约51小时的有效语音数据，为德语语音合成模型的训练奠定了重要基础，显著提升了合成语音的多样性与真实性。

当前挑战

该数据集旨在应对德语多说话人语音合成中数据质量不均与说话人代表性不足的双重挑战。在构建过程中，原始语料库存在显著的说话人时长不平衡问题，部分说话人数据量极大而其他则极为有限，这可能导致模型训练时某些说话人嵌入无法充分收敛。为此，研究团队实施了严格的自动化质量过滤与人工听检，排除了71位因噪音、麦克风质量不一致或数据不足的说话人，并引入时长上限与加权采样策略，确保每位说话人在训练批次中获得均衡的梯度更新，从而有效缓解了数据分布偏斜对模型性能的潜在影响。

常用场景

经典使用场景

在德语语音合成领域，多说话人文本到语音转换模型的训练常面临高质量、多样化语音数据的稀缺挑战。HUI German — 51 Speakers数据集通过精心筛选的51位说话人语音样本，为研究者提供了标准化的训练与验证划分，广泛应用于多说话人神经TTS模型的开发与评估。该数据集支持诸如StyleTTS2和Kokoro等先进框架，助力构建能够生成自然、富有表现力的德语语音的合成系统。

解决学术问题

该数据集有效应对了多说话人语音合成中常见的说话人数据不平衡问题。通过引入时长上限与加权采样策略，它确保了每位说话人在训练过程中获得均衡的梯度更新，从而避免了单一优势说话人主导模型训练的现象。这一方法不仅提升了模型在少数说话人上的泛化能力，还为处理非平衡语音语料库提供了可复现的解决方案，推动了多说话人TTS技术的理论进展。

实际应用

在实际应用中，该数据集为开发高质量德语语音合成系统奠定了数据基础。其涵盖的51位说话人覆盖了不同性别与发音风格，适用于智能助手、有声读物、语音导航等需要自然德语语音输出的场景。通过集成至Kokoro-deutsch等开源模型，该数据集助力实现了接近人声水平的德语TTS，促进了德语区语音技术的商业化与普及。

数据集最近研究