Chalermdej/yodas2_sidon_th_tts

Name: Chalermdej/yodas2_sidon_th_tts
Creator: Chalermdej
Published: 2026-05-01 12:59:46
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Chalermdej/yodas2_sidon_th_tts

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过过滤和质量验证的泰语文本转语音数据集，源自YODAS2 sidon数据集。数据集包含经过多个ASR模型和Gemini验证的转录文本，文本完全规范化为泰语，并通过DNSMOS筛选音频质量。数据集包含141,927个样本，156小时音频，4,199个说话者，采样率为24,000 Hz，格式为16位PCM单声道WAV。数据集适用于泰语文本转语音模型的训练，也可用于泰语自动语音识别微调。

A filtered, quality-verified Thai text-to-speech dataset derived from YODAS2 sidon, with transcriptions verified by multiple ASR models and Gemini, text fully normalized to Thai, and audio quality-screened with DNSMOS. The dataset contains 141,927 samples, 156 hours of audio, 4,199 speakers, a sample rate of 24,000 Hz, and is in 16-bit PCM mono WAV format. It is suitable for training Thai text-to-speech models and can also be used for Thai ASR fine-tuning.

提供机构：

Chalermdej

搜集汇总

数据集介绍

构建方式

该数据集源自 sarulab-speech/yodas2_sidon 中提取的泰语语音片段，经由三重自动语音识别模型独立转录，包括 biodatlab/distill-whisper-th-large-v3、typhoon-ai/typhoon-whisper-large-v3 及 typhoon-ai/llama-3-typhoon-v1.5-8b-audio-preview。当至少两个模型与原始文本一致时保留原文本；若仅一个匹配，则借助 Google Gemini 3.0 Flash 进行择优或合并转录。随后依据转录一致性分数将样本划分为 S+（95–100%）、S（90–95%）和 A+（85–90%）三个质量等级，低于 85% 的予以剔除。文本经过全面泰语化归一，包括将英文词汇通过含 4502 条词条的词典转换为泰语音译、数字转为泰语文字。音频被重采样为 24kHz 单声道 PCM-16 格式，并执行静音裁剪、峰值归一化至约 -1dB，超过 15 秒的片段在最近静音处分割，超过 20 秒且无停顿的片段直接丢弃。最终通过 DNSMOS 总体与背景评分均不低于 3.0、时长限制在 1.5 至 20 秒、文本长度至少 10 字符等条件进行质量筛选，获得包含 141,927 条样本、涵盖约 156 小时语音及 4,199 位说话人的高质量数据集。

特点

该数据集的核心特色在于其多维度质量保障体系与实用性设计。首先，通过三重 ASR 模型共识与 Gemini 辅助校验的转录策略，确保了文本标注的高度准确性，并据此生成 S+、S、A+ 三级质量标签，为用户提供灵活的数据筛选能力。其次，音频质量经过 DNSMOS 严格把关，整体与背景评分均达 3.0 以上，且背景评分均值高达 4.10，证实环境噪音极低；虽然总体评分因 DNSMOS 对非英语语音的系统性低估而显得中等，但高背景评分印证了音频的洁净度。数据集结构包含 speaker_id（映射至 YouTube 视频 ID）以保持说话人一致性，并提供了 grade_avg、dnsmos_overall、dnsmos_signal、dnsmos_background 等丰富元数据，支持按质量等级精细筛选。约 82.4 小时的 S+ 级样本和 60.7 小时的 S 级样本构成了核心高质量子集，特别适合对数据纯净度要求严苛的文本转语音模型训练。

使用方法

使用该数据集极为便捷，用户只需通过 Hugging Face Datasets 库执行 `load_dataset("Chalermdej/yodas2_sidon_th_tts")` 即可加载全部数据，并支持 `streaming=True` 参数以流式读取避免本地存储压力。每个样本以字典形式返回，包含 24kHz 的音频数组、完全归一化的泰语文本、说话人标识符及质量等级 grade_avg（字符串类型）。用户可根据 grade_avg 字段高效过滤：例如使用 `ds.filter(lambda x: x["grade_avg"] in ["S+", "S"])` 获取约 130k 样本的高质量子集，或仅保留 S+ 级以获取约 78k 样本的最优质量数据。数据集设计兼顾了文本转语音与自动语音识别的双重任务场景，其多说话人覆盖（约 4,200 人）和一致的音频质量使其既能支持单说话人微调，也适用于多说话人文本转语音模型的训练，同时也可作为泰语语音识别的微调资源。

背景与挑战

背景概述

yodas2_sidon_th_tts数据集由研究者Chalermdej等人于2025年创建，源自sarulab-speech/yodas2_sidon项目，旨在为泰语文本转语音（TTS）领域提供高质量、多说话人的语音数据。该数据集基于YouTube平台采集的泰语音频，经过多ASR模型转录验证、文本归一化、音频质量筛选等精细流程，最终包含约14.2万个样本、156小时音频及4199位说话人，覆盖了泰语语音的多样性和自然性。其创新之处在于结合了蒸馏版Whisper、台风Whisper等先进模型与Gemini大语言模型进行转录一致性校验，并采用DNSMOS与分级机制（S+/S/A+）确保数据纯净度，为泰语TTS研究奠定了坚实基础。该数据集以CC-BY-3.0许可开放，显著推动了低资源语言语音合成技术的发展，尤其在多说话人建模和跨领域泛化方面具有重要影响力。

当前挑战

该数据集构建过程中面临双重挑战。首要挑战在于泰语领域问题的特殊性：泰语作为声调语言，其文本与语音映射关系复杂，且网络来源音频常混有英语单词、数字及非标准发音，导致原始转录准确率低下。为此，团队需设计多模型投票机制与Gemini辅助纠错，以解决歧义消解和同音字误判难题。其次，构建过程中遭遇技术瓶颈：YouTube音频噪声背景多样，需通过DNSMOS过滤保证信噪比；长音频切分时需精准检测静音段，避免语义断句错误；此外，说话人身份基于视频ID映射，需确保同一视频内声学一致性，同时防范跨视频的说话人混淆。最终，通过分级筛选与人工校验的平衡，在数据规模与质量间达成高效折中。

常用场景

经典使用场景

在语音合成与识别研究领域，yodas2_sidon_th_tts 数据集凭借其大规模、多说话人及精细质量分级的特性，成为训练泰语文本到语音（TTS）模型的经典选择。该数据集源自 YouTube 音频，经过多模型转录校验、文本规范化及音频质量筛选，最终提供超过 14 万条、总计 156 小时的语音样本，涵盖 4199 位说话人。研究者可依据 grade_avg 字段（如 S+、S、A+）灵活筛选高质量子集，例如仅保留 S+ 等级样本即可获得约 78k 条、82 小时的纯净数据，适用于从单说话人微调到多说话人 TTS 系统的多样化建模需求。同时，其统一的 24kHz 采样率和 WAV 格式降低了预处理负担，显著提升了实验复现与迁移学习的便捷性。

实际应用

在实际部署层面，yodas2_sidon_th_tts 数据集为泰语语音交互系统的工业化落地提供了坚实支撑。以智能客服、语音助手和辅助沟通工具为例，多说话人覆盖能力使生成语音不再局限于单一音色，可依据用户偏好或场景风格实时切换说话人身份，显著提升人机交互的自然度与亲和力。结合其开放许可（CC-BY-3.0）与流式加载接口，开发团队能够在不占用本地磁盘空间的情况下直接训练和调优 TTS 模型，降低了中小型企业在语音技术领域的研发门槛。同时，该数据集也可作为泰语自动语音识别（ASR）的微调语料，用于提升模型在自然对话场景下的语音转写准确率，从而打通从语音合成到识别的全链路应用闭环。

衍生相关工作

该数据集的构建方法已衍生出多项具有启发意义的后续工作。其底层数据来源 yodas2_sidon 依托于 YODAS 框架，后者由 Li 等人提出并发表于 ASRU 2023，旨在从 YouTube 海量视频中系统化提取多语种语音资源。而数据清洗环节中使用的 Sidon 语音修复技术，由 Nakata 等人在 2025 年发表的预印本中详细阐述，专门针对大规模数据集中的噪声、截断与失真问题进行鲁棒性恢复。这两项先驱性研究为 yodas2_sidon_th_tts 提供了方法论基础，反过来，该数据集的发布也验证了 Sidon 管线对泰语语音的实际净化效果。未来，类似的多模型融合校验与分级策略有望被拓展至更多低资源语言（如老挝语、高棉语）的 TTS 语料构建中，从而推动东南亚语种语音技术的社区生态发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集