WSYue-TTS-eval
收藏Hugging Face2025-09-06 更新2025-09-07 收录
下载链接:
https://huggingface.co/datasets/ASLP-lab/WSYue-TTS-eval
下载链接
链接失效反馈官方服务:
资源简介:
WSYue-TTS-eval是一个专门为零样本粤语TTS评估设计的基准数据集,旨在对TTS模型在现实世界数据分布上的性能进行严格评估,并测试其在多样化和复杂的粤语场景下的一般化和鲁棒性。该数据集包含两个子集:Base和Coverage。Base子集包含来自CommonVoice的1000个日常对话风格的提示-文本对。Coverage子集结合了手动策划和LLM生成的文本,覆盖了日常生活、新闻、娱乐、诗歌等多个领域,以及多音字、声调变调、代码切换、专有名词和数字等粤语语言学现象。
创建时间:
2025-09-05
原始信息汇总
WSYue-TTS-eval: 粤语TTS基准数据集
概述
WSYue-TTS-eval是一个专门为零样本粤语语音合成评估设计的基准数据集,旨在解决粤语在语音合成中的独特语言特征问题。该数据集支持对模型在不同领域和具有挑战性的语言现象中的泛化能力和鲁棒性进行严格评估。
子集
Base
- 包含1,000个从CommonVoice采样的提示文本对
- 评估模型在真实世界数据分布上的性能
- 主要为日常对话风格
Coverage
- 结合手动整理和LLM生成的文本
- 覆盖多个领域:日常生活、新闻、娱乐、诗歌
- 涵盖多样化的粤语语言现象:
- 多音字
- 变调
- 语码转换
- 专有名词和数字
- 其他具有挑战性的语言案例
特点
- 专为TTS系统的严格评估设计
- 测试模型在多样化和复杂粤语场景中的泛化能力和鲁棒性
许可证
Apache-2.0
搜集汇总
数据集介绍

构建方式
针对粤语语音合成领域的独特语言特性,WSYue-TTS-eval数据集采用分层抽样与多源文本融合策略构建。基础子集从CommonVoice语料中精选1000条真实对话样本,反映日常交流的自然分布;覆盖子集结合人工编纂与大语言模型生成文本,跨越生活、新闻、娱乐及诗歌等多领域,系统性囊括多音字、变调、语码转换等复杂语言现象。
特点
该数据集的核心价值在于其针对粤语复杂性的深度设计,既包含贴近真实场景的日常对话样本,又通过领域多样性及语言现象全覆盖构建挑战性评估维度。特别关注粤语特有的音韵变化和混合语言现象,为衡量TTS模型的泛化能力与鲁棒性提供多维测试基准。
使用方法
研究者可通过加载标准音频-文本配对数据实施零样本合成评估,基础子集适用于常规性能测试,覆盖子集则专用于极端场景压力测试。建议分别计算各子集的自然度、清晰度及语言学准确性指标,并针对代码切换、数字读法等特定现象设计专项评估方案。
背景与挑战
背景概述
粤语语音合成研究长期面临数据资源匮乏的困境,为应对这一挑战,研究团队于近年开发了WSYue-TTS-eval基准数据集。该数据集由学术机构联合打造,聚焦于零样本场景下的粤语语音合成系统评估,其核心在于解决粤语特有的声调变调、多音字及语码转换等复杂语言现象。通过融合CommonVoice真实语料与多领域生成文本,该数据集为粤语语音合成技术的标准化评估提供了重要基础设施,显著推动了方言语音合成领域的研究进程。
当前挑战
数据集构建需克服粤语语言学的特殊性挑战,包括声调沙瓦现象的动态建模、多音字在不同语境下的发音歧义消除,以及粤普英三语码混合的韵律协调问题。在技术层面,需确保生成文本覆盖新闻、诗歌等多样领域的同时保持语言真实性,并解决低资源条件下数据平衡性与代表性的矛盾。这些挑战直接反映了方言语音合成领域在泛化性与鲁棒性方面存在的核心瓶颈。
常用场景
经典使用场景
在粤语语音合成研究中,WSYue-TTS-eval数据集被广泛用于零样本场景下的系统性能评估。其Base子集依托CommonVoice真实语料,模拟日常对话环境,而Coverage子集通过跨领域文本和复杂语言现象,如多音字处理、变调规则及语码转换等,全面检验合成系统在多样化语境中的适应能力。
实际应用
实际应用中,该数据集助力开发面向粤港澳地区的智能语音助手、方言教育工具及无障碍通信系统。其覆盖新闻、诗歌、娱乐等多领域文本的特性,特别适用于需要处理复杂语言场景的商用TTS系统优化,如广播电视自动播报、方言内容创作平台等。
衍生相关工作
基于该基准已衍生出多项重要研究,包括融合韵律感知的粤语合成模型、对抗训练增强的跨方言迁移方案,以及针对代码转换现象的专用声学建模方法。这些工作显著提升了合成语音在复杂粤语现象上的表现,推动了方言计算语言学的发展。
以上内容由遇见数据集搜集并总结生成



