vaja-thai
收藏Hugging Face2026-03-31 更新2026-04-01 收录
下载链接:
https://huggingface.co/datasets/dubbing-ai/vaja-thai
下载链接
链接失效反馈官方服务:
资源简介:
Vaja-Thai(วาจา)是一个统一且经过质量筛选的泰语语音数据集,专为文本到语音(TTS)研究设计。该数据集整合了多个来源的泰语语音数据,所有音频均重新采样为24 kHz WAV格式。数据集包含337,444个样本,总计647.4小时的语音数据,采样率为24,000 Hz,格式为16位PCM WAV。数据来源包括tsync2(专业TTS语料库)、porjai_central(中央泰语众包语音)、gigaspeech2(GigaSpeech2泰语开发/测试集)和commonvoice(Mozilla Common Voice泰语已验证部分)。每个样本包含音频波形、泰文转录、来源、说话者ID、说话者性别(如已知)、持续时间、原始采样率、质量等级(1-4)、信噪比(SNR)、Whisper验证的字符错误率(CER)和许可证信息。数据集经过严格的质量过滤,包括Whisper验证、时长限制、音频能量和削波检测。适用于高质量单/多说话者TTS、多说话者TTS和预训练等任务。
创建时间:
2026-03-28
原始信息汇总
Vaja-Thai (วาจา) — 综合泰语TTS数据集
数据集概述
Vaja-Thai是一个经过质量过滤、统一整合的泰语语音数据集,专为文本到语音(TTS)研究设计。该数据集合并了多个来源的音频,所有音频均已重采样为24 kHz的WAV格式。
核心统计信息
- 总样本数:337,444
- 总时长:647.4小时
- 采样率:24,000 Hz
- 音频格式:WAV 16-bit PCM
- 语言:泰语 (ภาษาไทย)
数据来源与构成
数据集由以下四个来源构成,每个来源具有不同的许可协议。
| 来源 | 样本数 | 时长 | 许可协议 | 描述 |
|---|---|---|---|---|
| tsync2 | 2,686 | 5.5小时 | CC-BY-NC-SA-3.0 | NECTEC专业TTS语料库,单女声说话人 |
| porjai_central | 218,076 | 495.5小时 | CC-BY-SA-4.0 | CMKL众包的中部泰语语音 |
| gigaspeech2 | 14,762 | 19.6小时 | non-commercial-research-only | GigaSpeech2泰语开发集+测试集(人工标注) |
| commonvoice | 101,920 | 126.8小时 | CC-0 | Mozilla Common Voice泰语(已验证部分) |
数据结构
加载后的数据集包含以下字段:
| 字段名 | 类型 | 描述 |
|---|---|---|
id |
string | 唯一样本ID ({来源}_{原始ID}) |
audio |
Audio(24000) | 音频波形 |
text |
string | 泰语文本转录 |
source |
string | 原始数据集名称 |
speaker_id |
string | 说话人标识符 |
speaker_gender |
string | 已知的说话人性别 (male/female/None) |
duration_s |
float | 音频时长(秒) |
original_sr |
int | 重采样前的原始采样率 |
quality_tier |
int | 1–4级质量等级 |
snr_db |
float | 估计的信噪比 (dB) |
whisper_cer |
float | Whisper验证的字错误率 (未验证则为None) |
license |
string | 源数据集的许可协议 |
质量控制与处理
数据集经过严格的质量过滤和处理流程。
质量过滤标准
- Whisper验证:对Porjai和Common Voice来源的样本,使用
openai/whisper-large-v3-turbo进行转录,并依据字错误率(CER ≤ 0.15)进行过滤。TSync2(录音室质量)和GigaSpeech2开发/测试集(人工标注)免于验证。 - 时长限制:1.0秒至30.0秒。
- 音频能量:最小RMS > -50 dBFS(去除近静音片段)。
- 削波检测:削波样本比例 < 1%。
音频上采样处理
- 16 kHz来源:Porjai和GigaSpeech2的音频使用基于GAN的带宽扩展模型AP-BWE进行上采样。
- 22.05 kHz来源:TSync2的音频使用
librosa的kaiser_best方法重采样。 - 48 kHz来源:Common Voice的MP3音频被解码并使用
librosa进行下采样。
质量等级
每个样本均被赋予1至4级的quality_tier,依据来源可信度和实测音频质量(CER + SNR)综合评定。
| 等级 | 评定标准 | 描述 | 建议用途 |
|---|---|---|---|
| 1 | 录音室质量/人工标注,或 CER ≤ 0.03 且 SNR ≥ 25 dB | 最高质量 | 微调、高质量单/少说话人TTS |
| 2 | CER ≤ 0.08 且 SNR ≥ 15 dB | 干净的ASR样本 | 已验证转录的多说话人TTS |
| 3 | CER ≤ 0.15 且 SNR ≥ 10 dB | 可接受质量 | 预训练、数据增强 |
| 4 | 通过基础过滤但实测质量较低 | 边缘质量 | 仅用于大规模预训练,需谨慎使用 |
基础等级分配
- TSync2、GigaSpeech2开发/测试集 → 固定为等级1。
- Common Voice、Porjai Central → 根据CER和SNR测量结果进行细化。
说话人信息
- tsync2:单一已知专业女声说话人 (
tsync2_nun)。 - porjai_central:无说话人标签 (
porjai_central_unknown)。 - gigaspeech2:使用YouTube频道ID作为说话人代理标识。
- commonvoice:使用
client_id哈希值作为说话人代理标识,部分包含性别元数据。
许可协议
数据集采用混合许可协议,每个子集(config)有其独立的许可。all配置继承最严格的条款(非商业),但单个配置可能更宽松:
| 配置 | 许可协议 | 商业用途 |
|---|---|---|
tsync2 |
CC-BY-NC-SA 3.0 | 不允许 |
porjai_central |
CC-BY-SA 4.0 | 允许 |
gigaspeech2 |
仅限非商业研究/教育 | 不允许 |
commonvoice |
CC-0 (公共领域) | 允许 |
每个样本中的license字段提供了逐样本的许可信息。
引用
若使用本数据集,请引用原始源数据集,相关文献见README文件中的BibTeX条目。
搜集汇总
数据集介绍

构建方式
在泰语语音合成研究领域,数据集的构建质量直接影响模型的性能表现。Vaja-Thai数据集通过整合多个来源的泰语语音数据,构建了一个统一且经过质量筛选的语料库。其构建过程首先从四个主要来源采集原始音频,包括专业录音室录制的TSync2语料、众包采集的Porjai Central数据、GigaSpeech2的开发测试集以及Mozilla Common Voice的泰语验证集。所有音频均被重新采样至24 kHz的WAV格式,并采用AP-BWE等先进技术对低采样率音频进行上采样处理。数据集通过Whisper模型进行转录验证,依据字符错误率、信噪比等指标实施严格的质量过滤,最终为每个样本分配了从1到4的质量等级,确保数据集的整体纯净度与可用性。
特点
Vaja-Thai数据集展现出多方面的显著特征,使其在泰语语音资源中独树一帜。其核心特征在于规模庞大且来源多样,总计包含超过33万条样本,时长近650小时,涵盖了从专业录音室到众包环境的多种录音条件。数据集引入了精细的质量分级体系,依据来源可信度与客观测量指标将样本划分为四个质量层级,为不同精度的研究任务提供了灵活的数据选择依据。此外,数据集保留了原始的音源、说话人标识及性别信息(如已知),并统一了音频格式与采样率,同时标注了每一条数据的许可协议,为合规使用提供了清晰指引。这些特征共同构成了一个层次分明、信息完备的高质量泰语语音数据集。
使用方法
为便于研究人员高效利用,Vaja-Thai数据集提供了灵活多样的加载与使用方法。用户可通过Hugging Face的`datasets`库,选择加载特定的数据源配置,如`tsync2`或`porjai_central`,亦可使用流式读取模式以避免完整下载大数据集。通过`concatenate_datasets`函数,能够轻松地将所有来源的数据合并为一个统一的数据集。数据集中包含的`quality_tier`、`snr_db`等关键字段,使得用户能够便捷地根据研究需求进行数据筛选,例如仅选取高质量层级的样本用于语音合成模型的微调。数据集遵循标准的音频-文本配对格式,并附有详细的元数据,可直接接入主流的语音处理框架进行模型训练与评估。
背景与挑战
背景概述
在语音合成技术迅猛发展的背景下,高质量、多语种语音数据集的构建成为推动研究的关键。Vaja-Thai数据集由dubbing-ai团队于近年整合发布,旨在为泰语文本到语音转换研究提供一个统一且经过质量筛选的语音资源。该数据集汇聚了来自TSync2、Porjai Central、GigaSpeech2和Common Voice等多个来源的泰语语音样本,总计超过33万条录音,时长约647小时,覆盖了从专业录音室到众包采集的多样化语音数据。其核心研究问题聚焦于解决泰语语音合成领域中数据稀缺、质量参差不齐以及多说话人建模的难题,通过严格的音频处理与质量分级,为泰语语音技术的开发与应用提供了坚实的数据基础,显著促进了低资源语言语音合成研究的进展。
当前挑战
Vaja-Thai数据集所针对的泰语文本到语音转换任务,面临语音自然度与表现力建模、多说话人声音合成以及低资源语言数据匮乏等固有挑战。在数据集构建过程中,研究者需应对原始数据来源异构性带来的整合困难,包括采样率不一、录音质量差异以及许可证协议冲突等问题。具体而言,数据清洗与质量筛选环节需借助Whisper模型进行转录验证,依据字符错误率与信噪比指标实施分级,同时采用基于生成对抗网络的带宽扩展技术对低采样率音频进行上采样,以保障音频格式的统一性与高保真度。此外,说话人标识的缺失与代理标签的不确定性,也为多说话人语音合成模型的训练增添了复杂性。
常用场景
经典使用场景
在泰语语音合成研究领域,Vaja-Thai数据集为构建高质量、多说话人的文本到语音模型提供了关键资源。其经典使用场景集中于训练和评估端到端的神经TTS系统,如Tacotron或FastSpeech架构,这些模型能够从泰语文本生成自然流畅的语音波形。研究者常利用数据集内分层的质量等级,优先选用Tier 1和Tier 2的高质量样本进行模型微调,以确保合成语音在清晰度与自然度上达到专业水准,同时多源数据支持探索说话人自适应与跨领域泛化能力。
实际应用
在实际应用层面,Vaja-Thai数据集为开发泰语智能语音系统奠定了数据基础。它可广泛应用于教育科技中的语音辅助学习工具、媒体行业的自动配音与有声内容生成,以及客户服务领域的语音交互界面。基于该数据集训练的模型能够为泰语用户提供个性化的语音助手服务,提升数字产品的可访问性,同时在文化遗产保护中,助力泰语方言与口语资料的数字化保存与复兴。
衍生相关工作
围绕Vaja-Thai数据集,已衍生出一系列经典研究工作。这些工作主要聚焦于泰语语音合成的模型优化,例如利用其多说话人数据探索说话人嵌入与风格迁移技术,或结合质量分层策略研究鲁棒性训练方法。此外,数据集也被用于跨语言语音合成的迁移学习实验,以及作为评估基准在语音识别系统中验证泰语方言适应性,推动了亚太地区低资源语言语音技术的协同创新。
以上内容由遇见数据集搜集并总结生成



