WenetSpeech-Yue

github2025-09-01 更新2025-09-02 收录

下载链接：

https://github.com/ASLP-lab/WenetSpeech-Yue

下载链接

链接失效反馈

资源简介：

一个大规模粤语语音语料库，具有多维标注

A large-scale Cantonese speech corpus with multi-dimensional annotations

创建时间：

2025-09-01

原始信息汇总

WenetSpeech-Yue 数据集概述

数据集基本信息

名称：WenetSpeech-Yue
语言：粤语（Cantonese）
规模：21,800小时
性质：大规模开源粤语语音语料库，带有丰富标注
存储格式：元数据存储在单一JSON文件中

数据内容与标注

音频元数据：包含音频路径、时长、文本置信度、说话人身份、信噪比（SNR）、DNSMOS评分、年龄、性别和字符级时间戳
覆盖领域：涵盖10个领域，包括讲故事、娱乐、戏剧、文化、视频博客、评论、教育、播客、新闻和其他
标注维度：多维度标注，包括文本转录、情感、年龄和性别标签

基准测试

ASR基准测试（WSYue-ASR-eval）

目的：用于自动语音识别（ASR）任务的测试集
特点：多轮人工标注，涵盖代码切换和多领域条件
子集划分：
- 短音频子集（0-10秒）：2,861个说话人，9.46小时
- 长音频子集（10-30秒）：838个说话人，1.97小时

TTS基准测试（WSYue-TTS-eval）

目的：用于零样本粤语文本到语音（TTS）任务的基准测试
子集：
- 基础子集：包含1,000个来自Common Voice的样本，用于评估真实世界性能
- 覆盖子集：结合手动策划和LLM生成的文本，涵盖多个领域和语言现象

数据处理流程（WenetSpeech-Pipe）

音频收集

收集大规模、多样领域的语音录音，包括讲故事、戏剧、评论、视频博客、食品、娱乐、新闻和教育
使用VAD将长录音分割成短片段，用于转录和质量评估

说话人属性标注

使用pyannote进行说话人日记化
使用Vox-Profile进行年龄和性别估计
为每个话语级片段标注说话人身份、年龄和性别

语音质量标注

使用Brouhaha评估信噪比（SNR）
使用DNSMOS评估感知质量（MOS）
带宽检测用于频谱覆盖评估

自动语音识别

选择在粤语上性能最佳的三个模型进行多系统标注：SenseVoice、TeleASR和Whisper
为每个音频文件获取相应的多系统转录

文本后处理

包括标点去除、繁体到简体中文转换和文本规范化
详细代码见text_postprocessing.py

识别器输出投票

采用并扩展ROVER框架用于粤语
使用动态编程对齐标准化转录
基于编辑距离的过滤模块去除异常输出
投票选择每个对齐位置的最频繁单词，记录平均投票频率作为话语级置信度分数
引入发音级置信度测量，进一步强化音素一致性
利用Qwen3-4B进行最小化、上下文感知的共识输出细化

贡献机构

西北工业大学
北京希尔贝壳科技有限公司
TeleAI
北京出门问问科技有限公司
香港科技大学

AI搜集汇总

数据集介绍

构建方式

在粤语语音资源稀缺的背景下，WenetSpeech-Yue通过系统化流程构建大规模语料库。首先从多领域长音频中采集原始数据，采用语音活动检测技术分割为 utterance 级别片段；随后集成说话人日志、年龄性别估计工具标注说话人属性；通过多模型ASR系统生成初始转录，结合ROVER投票框架与LLM修正机制提升文本准确性；最后引入信号质量评估模块，对每个片段标注信噪比、MOS分值与带宽信息，形成多维结构化数据。

特点

作为当前最大规模的开源粤语语音数据集，WenetSpeech-Yue涵盖21,800小时音频，覆盖故事、戏剧、评论、教育等十类领域，呈现丰富的语言多样性。其核心特征在于多维标注体系：除音频文本对外，还包含说话人身份、年龄性别属性、字符级时间戳、信号质量分数及语音置信度等结构化元数据。数据集特别纳入代码转换、声调变化等粤语特有语言现象，并区分长短音频子集以支持不同场景的模型评估。

使用方法

研究者可通过Hugging Face平台获取数据集元数据文件及音频资源，该数据集支持自动语音识别与文本转语音双任务评测。对于ASR任务，用户可加载预置的WSYue-ASR-eval基准测试集，调用提供的Conformer或Whisper微调模型进行推理；TTS任务则需结合WSYue-TTS-eval的零样本评测框架，利用标注的说话人属性实现风格可控合成。数据处理时需依据JSON文件中的质量分数与置信度筛选样本，以确保模型训练的有效性。

背景与挑战

背景概述

粤语作为汉语方言的重要分支，在语音技术领域长期面临数据资源匮乏的挑战。WenetSpeech-Yue由西北工业大学音频语音与语言处理研究实验室联合多家机构于2024年共同创建，旨在构建全球最大规模的开源粤语语音数据集。该数据集包含21,800小时多维度标注语音，覆盖故事讲述、影视娱乐、文化教育等十大领域，有效推动了粤语自动语音识别与文本转语音技术的研究进程。

当前挑战

粤语语音识别需应对六声调系统、文白异读及中英文码转换等语言学挑战，同时需解决长尾领域数据稀疏性问题。数据集构建过程中面临多源音频质量统一、说话人属性标注一致性、以及基于多系统投票的文本标注优化等关键技术难题，需通过信号处理与深度学习融合方法实现大规模语音数据的高效清洗与精准标注。

常用场景

经典使用场景

在粤语语音技术研究中，WenetSpeech-Yue数据集作为大规模标注资源，广泛应用于自动语音识别系统的训练与评估。该数据集涵盖故事讲述、戏剧、评论等多领域语音内容，为研究者提供了丰富的声学模型训练样本。其经典使用场景包括端到端语音识别模型的开发，特别是在处理粤语特有的声调变化和语码转换现象时表现出色，成为该领域基准测试的重要数据支撑。

解决学术问题

该数据集有效解决了粤语语音资源匮乏的学术困境，为低资源语言语音处理提供了高质量标注数据。通过多维度标注信息如说话人属性、信号质量指标和字符级时间戳，支持了跨说话人自适应、噪声鲁棒性建模等关键研究方向。其引入的WSYue评估基准进一步规范了粤语语音技术的评估标准，推动了方言语音处理领域的标准化进程。

衍生相关工作

基于该数据集衍生的经典工作包括Conformer-Yue端到端语音识别模型和Whisper粤语适配版本，这些模型在WSYue-ASR评测中取得了领先性能。同时催生了WSYue-TTS语音合成基准，推动了CosyVoice2等粤语TTS系统的发展。数据集配套的WenetSpeech-Pipe预处理管道也为多模态语音数据处理提供了标准化范式，影响了后续方言语音资源的构建方法。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集