five

Chalermdej/yodas2_sidon_th_tts

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Chalermdej/yodas2_sidon_th_tts
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个经过过滤和质量验证的泰语文本转语音数据集,源自YODAS2 sidon数据集。数据集包含经过多个ASR模型和Gemini验证的转录文本,文本完全规范化为泰语,并通过DNSMOS筛选音频质量。数据集包含141,927个样本,156小时音频,4,199个说话者,采样率为24,000 Hz,格式为16位PCM单声道WAV。数据集适用于泰语文本转语音模型的训练,也可用于泰语自动语音识别微调。

A filtered, quality-verified Thai text-to-speech dataset derived from YODAS2 sidon, with transcriptions verified by multiple ASR models and Gemini, text fully normalized to Thai, and audio quality-screened with DNSMOS. The dataset contains 141,927 samples, 156 hours of audio, 4,199 speakers, a sample rate of 24,000 Hz, and is in 16-bit PCM mono WAV format. It is suitable for training Thai text-to-speech models and can also be used for Thai ASR fine-tuning.
提供机构:
Chalermdej
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自 sarulab-speech/yodas2_sidon 中提取的泰语语音片段,经由三重自动语音识别模型独立转录,包括 biodatlab/distill-whisper-th-large-v3、typhoon-ai/typhoon-whisper-large-v3 及 typhoon-ai/llama-3-typhoon-v1.5-8b-audio-preview。当至少两个模型与原始文本一致时保留原文本;若仅一个匹配,则借助 Google Gemini 3.0 Flash 进行择优或合并转录。随后依据转录一致性分数将样本划分为 S+(95–100%)、S(90–95%)和 A+(85–90%)三个质量等级,低于 85% 的予以剔除。文本经过全面泰语化归一,包括将英文词汇通过含 4502 条词条的词典转换为泰语音译、数字转为泰语文字。音频被重采样为 24kHz 单声道 PCM-16 格式,并执行静音裁剪、峰值归一化至约 -1dB,超过 15 秒的片段在最近静音处分割,超过 20 秒且无停顿的片段直接丢弃。最终通过 DNSMOS 总体与背景评分均不低于 3.0、时长限制在 1.5 至 20 秒、文本长度至少 10 字符等条件进行质量筛选,获得包含 141,927 条样本、涵盖约 156 小时语音及 4,199 位说话人的高质量数据集。
特点
该数据集的核心特色在于其多维度质量保障体系与实用性设计。首先,通过三重 ASR 模型共识与 Gemini 辅助校验的转录策略,确保了文本标注的高度准确性,并据此生成 S+、S、A+ 三级质量标签,为用户提供灵活的数据筛选能力。其次,音频质量经过 DNSMOS 严格把关,整体与背景评分均达 3.0 以上,且背景评分均值高达 4.10,证实环境噪音极低;虽然总体评分因 DNSMOS 对非英语语音的系统性低估而显得中等,但高背景评分印证了音频的洁净度。数据集结构包含 speaker_id(映射至 YouTube 视频 ID)以保持说话人一致性,并提供了 grade_avg、dnsmos_overall、dnsmos_signal、dnsmos_background 等丰富元数据,支持按质量等级精细筛选。约 82.4 小时的 S+ 级样本和 60.7 小时的 S 级样本构成了核心高质量子集,特别适合对数据纯净度要求严苛的文本转语音模型训练。
使用方法
使用该数据集极为便捷,用户只需通过 Hugging Face Datasets 库执行 `load_dataset("Chalermdej/yodas2_sidon_th_tts")` 即可加载全部数据,并支持 `streaming=True` 参数以流式读取避免本地存储压力。每个样本以字典形式返回,包含 24kHz 的音频数组、完全归一化的泰语文本、说话人标识符及质量等级 grade_avg(字符串类型)。用户可根据 grade_avg 字段高效过滤:例如使用 `ds.filter(lambda x: x["grade_avg"] in ["S+", "S"])` 获取约 130k 样本的高质量子集,或仅保留 S+ 级以获取约 78k 样本的最优质量数据。数据集设计兼顾了文本转语音与自动语音识别的双重任务场景,其多说话人覆盖(约 4,200 人)和一致的音频质量使其既能支持单说话人微调,也适用于多说话人文本转语音模型的训练,同时也可作为泰语语音识别的微调资源。
背景与挑战
背景概述
yodas2_sidon_th_tts数据集由研究者Chalermdej等人于2025年创建,源自sarulab-speech/yodas2_sidon项目,旨在为泰语文本转语音(TTS)领域提供高质量、多说话人的语音数据。该数据集基于YouTube平台采集的泰语音频,经过多ASR模型转录验证、文本归一化、音频质量筛选等精细流程,最终包含约14.2万个样本、156小时音频及4199位说话人,覆盖了泰语语音的多样性和自然性。其创新之处在于结合了蒸馏版Whisper、台风Whisper等先进模型与Gemini大语言模型进行转录一致性校验,并采用DNSMOS与分级机制(S+/S/A+)确保数据纯净度,为泰语TTS研究奠定了坚实基础。该数据集以CC-BY-3.0许可开放,显著推动了低资源语言语音合成技术的发展,尤其在多说话人建模和跨领域泛化方面具有重要影响力。
当前挑战
该数据集构建过程中面临双重挑战。首要挑战在于泰语领域问题的特殊性:泰语作为声调语言,其文本与语音映射关系复杂,且网络来源音频常混有英语单词、数字及非标准发音,导致原始转录准确率低下。为此,团队需设计多模型投票机制与Gemini辅助纠错,以解决歧义消解和同音字误判难题。其次,构建过程中遭遇技术瓶颈:YouTube音频噪声背景多样,需通过DNSMOS过滤保证信噪比;长音频切分时需精准检测静音段,避免语义断句错误;此外,说话人身份基于视频ID映射,需确保同一视频内声学一致性,同时防范跨视频的说话人混淆。最终,通过分级筛选与人工校验的平衡,在数据规模与质量间达成高效折中。
常用场景
经典使用场景
在语音合成与识别研究领域,yodas2_sidon_th_tts 数据集凭借其大规模、多说话人及精细质量分级的特性,成为训练泰语文本到语音(TTS)模型的经典选择。该数据集源自 YouTube 音频,经过多模型转录校验、文本规范化及音频质量筛选,最终提供超过 14 万条、总计 156 小时的语音样本,涵盖 4199 位说话人。研究者可依据 grade_avg 字段(如 S+、S、A+)灵活筛选高质量子集,例如仅保留 S+ 等级样本即可获得约 78k 条、82 小时的纯净数据,适用于从单说话人微调到多说话人 TTS 系统的多样化建模需求。同时,其统一的 24kHz 采样率和 WAV 格式降低了预处理负担,显著提升了实验复现与迁移学习的便捷性。
实际应用
在实际部署层面,yodas2_sidon_th_tts 数据集为泰语语音交互系统的工业化落地提供了坚实支撑。以智能客服、语音助手和辅助沟通工具为例,多说话人覆盖能力使生成语音不再局限于单一音色,可依据用户偏好或场景风格实时切换说话人身份,显著提升人机交互的自然度与亲和力。结合其开放许可(CC-BY-3.0)与流式加载接口,开发团队能够在不占用本地磁盘空间的情况下直接训练和调优 TTS 模型,降低了中小型企业在语音技术领域的研发门槛。同时,该数据集也可作为泰语自动语音识别(ASR)的微调语料,用于提升模型在自然对话场景下的语音转写准确率,从而打通从语音合成到识别的全链路应用闭环。
衍生相关工作
该数据集的构建方法已衍生出多项具有启发意义的后续工作。其底层数据来源 yodas2_sidon 依托于 YODAS 框架,后者由 Li 等人提出并发表于 ASRU 2023,旨在从 YouTube 海量视频中系统化提取多语种语音资源。而数据清洗环节中使用的 Sidon 语音修复技术,由 Nakata 等人在 2025 年发表的预印本中详细阐述,专门针对大规模数据集中的噪声、截断与失真问题进行鲁棒性恢复。这两项先驱性研究为 yodas2_sidon_th_tts 提供了方法论基础,反过来,该数据集的发布也验证了 Sidon 管线对泰语语音的实际净化效果。未来,类似的多模型融合校验与分级策略有望被拓展至更多低资源语言(如老挝语、高棉语)的 TTS 语料构建中,从而推动东南亚语种语音技术的社区生态发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作