five

dutch-tts-shards-v2

收藏
Hugging Face2025-12-07 更新2025-12-08 收录
下载链接:
https://huggingface.co/datasets/AITRADER/dutch-tts-shards-v2
下载链接
链接失效反馈
官方服务:
资源简介:
荷兰语TTS训练数据集(多说话人)v2是一个用于训练荷兰语文本到语音模型的多说话人数据集。该数据集提供了预处理的语音数据,包括正确的分词和多说话人支持。数据集包含来自多个来源的数据,如Mozilla Common Voice 17、Google FLEURS、CML-TTS等,并且每个样本都有说话人性别标签(男性、女性或未知)。数据格式为WebDataset shards,包含文本、分词后的文本、音频分词、说话人标签和来源数据集名称。
创建时间:
2025-12-07
原始信息汇总

Dutch TTS Training Data (Multi-Speaker) v2 数据集概述

数据集基本信息

  • 许可证: apache-2.0
  • 语言: 荷兰语 (nl)
  • 标签: tts, text-to-speech, dutch, speech-synthesis, multi-speaker
  • 描述: 用于训练 Marvis-TTS 模型的预分词荷兰语语音数据,具备正确的分词多说话人支持

版本信息

  • 本版本为 v2,相较于 v1 (dutch-tts-shards) 版本进行了关键修复:
    • 正确的文本分词格式:<|im_start|>[speaker]text<|im_end|>
    • 支持多说话人:男性 (0)、女性 (1)、未知 (2)
    • 说话人标签源自源数据集
  • v1 版本因分词错误导致输出不可理解。

说话人映射

说话人 ID 性别 来源
0 男性 来自性别标签或基于 speaker_id 的伪随机分配
1 女性 来自性别标签或基于 speaker_id 的伪随机分配
2 未知 当性别信息不可用时

数据格式

数据以 WebDataset 分片 (.tar) 格式提供,包含 JSON 结构,字段如下:

  • text: 原始文本
  • text_tokens: 分词后的文本,格式为 <|im_start|>[speaker]text<|im_end|>
  • audio_tokens: 来自 Mimi 编解码器 (24kHz) 的 32 个码本
  • speaker: 说话人标签,0 (男性)、1 (女性)、2 (未知)
  • dataset: 源数据集名称

源数据集

  • Mozilla Common Voice 17 (荷兰语) - 带性别标签 ✓
  • Google FLEURS (荷兰语) - 带性别标签 ✓
  • CML-TTS (荷兰语) - 基于 speaker_id
  • MLS Dutch - 基于 speaker_id
  • Natural Accented Dutch
  • CSS10 Dutch - 单女性说话人 ✓

使用方法

python from datasets import load_dataset, Audio

ds = load_dataset("AITRADER/dutch-tts-shards-v2", streaming=True, split="train") ds = ds.cast_column("audio.wav", Audio(decode=False))

for sample in ds: j = sample["json"] text_tokens = j["text_tokens"] # 准备用于模型输入 audio_tokens = j["audio_tokens"] # 准备用于模型输出 speaker = j["speaker"] # 0=男性, 1=女性, 2=未知

训练配置

bash python train.py config_nl_60m_cloud.json

确保配置文件中使用 "dataset_repo_id": "AITRADER/dutch-tts-shards-v2"

附加信息

详细的每个数据集说话人统计信息,请参见 speaker_stats.json 文件。

搜集汇总
数据集介绍
main_image_url
构建方式
在荷兰语语音合成研究领域,高质量多说话人数据集的构建至关重要。dutch-tts-shards-v2 数据集通过整合多个权威开源语音资源系统性地构建而成,其核心来源包括 Mozilla Common Voice 17、Google FLEURS、CML-TTS、MLS Dutch、Natural Accented Dutch 以及 CSS10 Dutch。每个样本均经过精细的预处理流程,原始文本被统一转换为特定的标记化格式 `<|im_start|>[speaker]text<|im_end|>`,同时语音信号通过 Mimi 编解码器处理为 24kHz 采样率下的 32 个码本序列。数据组织采用 WebDataset 分片格式,每个样本均附带说话人性别标签与原始数据集标识,确保了数据来源的可追溯性与模型训练的可靠性。
使用方法
为高效利用该数据集进行语音合成模型训练,研究者可通过 Hugging Face `datasets` 库以流式加载方式获取。加载后数据集中的音频列需转换为非解码格式以保留原始令牌数据。每个数据样本以 JSON 对象形式呈现,其中 `text_tokens` 字段可直接作为模型输入,`audio_tokens` 字段对应模型预期输出的音频编码序列,而 `speaker` 字段则提供了说话人身份控制信息。在具体训练配置中,仅需在配置文件中指定该数据集的存储库标识,即可将其无缝集成至如 Marvis-TTS 等模型的训练流程,实现多说话人荷兰语语音合成系统的开发与优化。
背景与挑战
背景概述
荷兰语文本转语音(TTS)技术作为语音合成领域的重要分支,其发展长期受限于高质量、多说话人训练数据的稀缺。dutch-tts-shards-v2数据集由AITRADER团队构建,旨在为荷兰语TTS模型提供预分词且支持多说话人的标准化训练语料。该数据集整合了Mozilla Common Voice、Google FLEURS、CML-TTS等多个公开语音资源,通过统一的说话人性别标注与分词格式,显著提升了Marvis-TTS等模型的训练效率与合成语音的自然度。其核心研究问题聚焦于解决荷兰语语音合成中因数据分散、标注不一致导致的模型泛化能力不足,为低资源语言TTS研究提供了关键的数据基础。
当前挑战
在荷兰语TTS任务中,主要挑战在于语音数据在韵律、口音和说话人风格上的高度多样性,要求模型能够准确建模不同性别与未知说话人的声学特征。dutch-tts-shards-v2在构建过程中面临多重困难:首先,原始数据来源各异,其说话人性别标签缺失或不统一,需通过启发式方法进行推断与映射;其次,文本分词的一致性至关重要,初始版本因分词错误导致语音输出不可理解,修复此问题需重新设计符合模型输入规范的分词格式;此外,整合多数据集时需平衡不同来源的音频质量与标注可靠性,确保合成语音的清晰度与自然性。
常用场景
经典使用场景
在语音合成领域,荷兰语多说话人文本到语音模型的训练常面临数据稀缺与质量不均的挑战。Dutch TTS Shards v2数据集通过提供预处理的荷兰语语音分片,为研究人员和开发者构建高效、准确的TTS系统奠定了坚实基础。该数据集特别适用于训练基于Transformer架构的Marvis-TTS模型,其经典使用场景包括多说话人语音合成模型的端到端训练,其中文本经过正确分词并嵌入说话人标签,音频则以编码形式呈现,极大简化了模型输入输出的处理流程。
解决学术问题
该数据集有效解决了荷兰语语音合成研究中几个关键学术问题:首先,它纠正了先前版本中分词错误导致的输出不可理解问题,确保了文本表示的准确性;其次,通过整合多个来源的语音数据并标注说话人性别,它支持多说话人建模,促进了说话人身份与语音风格解耦的研究;此外,统一的音频编码格式降低了数据预处理复杂度,使研究者能更专注于模型架构与训练策略的优化,推动了低资源语言语音合成技术的进步。
实际应用
在实际应用中,Dutch TTS Shards v2数据集为荷兰语地区的智能助手、有声读物生成、实时语音交互系统提供了高质量的训练资源。其多说话人支持使得合成语音能够模拟不同性别和风格的说话者,增强了用户体验的自然度与多样性。该数据集还被广泛应用于教育技术领域,例如语言学习工具中的发音示范,以及无障碍技术中为视障用户提供语音导航服务,显著提升了荷兰语语音技术的普及性与实用性。
数据集最近研究
最新研究方向
在荷兰语语音合成领域,多说话人模型的训练正成为前沿焦点。dutch-tts-shards-v2数据集凭借其修正的文本分词结构和明确的说话人性别标签,为研究者提供了高质量的训练基础。当前研究热点集中于利用该数据集探索跨说话人风格迁移、情感可控合成以及低资源语言的高效建模,这些方向不仅推动了荷兰语数字助理和有声内容创作的进步,也对多语言语音技术的公平性与包容性发展产生了深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作