five

WenetSpeech-Yue

收藏
arXiv2025-09-05 更新2025-09-09 收录
下载链接:
https://github.com/wenet-e2e/wenet
下载链接
链接失效反馈
官方服务:
资源简介:
WenetSpeech-Yue是一个大规模的粤语语音语料库,包含多维度标注,适用于语音理解和生成任务。该数据集由西北工业大学音频、语音和语言处理小组创建,包含21800小时的语音数据,涵盖了10个不同的领域。数据集的标注包括ASR转录、文本置信度、说话者身份、年龄、性别、语音质量评分等。WenetSpeech-Yue是目前最大的开源粤语语音语料库,为粤语语音理解和生成提供了宝贵的资源。

WenetSpeech-Yue is a large-scale Cantonese speech corpus with multi-dimensional annotations, suitable for speech understanding and generation tasks. This dataset was created by the Audio, Speech and Language Processing Group of Northwestern Polytechnical University, containing 21,800 hours of speech data spanning 10 distinct domains. Its annotations include ASR transcriptions, text confidence scores, speaker identity, age, gender, and speech quality ratings, among others. WenetSpeech-Yue is currently the largest open-source Cantonese speech corpus, providing a valuable resource for Cantonese speech understanding and generation.
提供机构:
西北工业大学
创建时间:
2025-09-04
原始信息汇总

WeNet 数据集概述

基本信息

  • 名称:WeNet
  • 许可协议:Apache 2.0
  • 编程语言:Python 3.7 或 3.8

核心特点

  • 生产优先且生产就绪:核心设计原则,提供全栈生产解决方案用于语音识别。
  • 准确:在多个公共语音数据集上实现SOTA结果。
  • 轻量:易于安装、使用,设计良好且文档完善。

安装与使用

Python包安装

sh pip install git+https://github.com/wenet-e2e/wenet.git

命令行使用

sh wenet -m paraformer audio.wav

  • 中文模型选项:paraformerfireredwenetspeech
  • 英文模型选项:whisper-large-v3whisper-large-v3-turbo

Python编程使用

python import wenet model = wenet.load_model(paraformer) result = model.transcribe(audio.wav) print(result.text)

训练与部署安装

  • 克隆仓库:git clone https://github.com/wenet-e2e/wenet.git
  • 创建Conda环境:Python 3.10
  • 安装CUDA:推荐CUDA 12.1
  • 安装Torch和TorchAudio:推荐版本2.2.2+cu121

昇腾NPU用户

  • 安装CANN工具包和内核
  • 安装WeNet与torch-npu依赖
  • 版本控制要求详见文档

运行时构建

  • 需要CMake 3.14或更高版本
  • 支持x86运行时和语言模型(LM)

支持与交流

  • 通过GitHub Issues讨论
  • 中文用户可通过微信公众号和微信群交流

致谢

  • 借鉴ESPnet的基于Transformer的建模代码
  • 借鉴Kaldi的基于WFST的LM集成解码代码
  • 参考EESEN构建基于TLG的LM集成图
  • 参考OpenTransformer实现端到端模型的Python批量推理

引用文献

bibtex @inproceedings{yao2021wenet, title={WeNet: Production oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit}, author={Yao, Zhuoyuan and Wu, Di and Wang, Xiong and Zhang, Binbin and Yu, Fan and Yang, Chao and Peng, Zhendong and Chen, Xiaoyu and Xie, Lei and Lei, Xin}, booktitle={Proc. Interspeech}, year={2021}, address={Brno, Czech Republic}, organization={IEEE} }

@article{zhang2022wenet, title={WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit}, author={Zhang, Binbin and Wu, Di and Peng, Zhendong and Song, Xingchen and Yao, Zhuoyuan and Lv, Hang and Xie, Lei and Yang, Chao and Pan, Fuping and Niu, Jianwei}, journal={arXiv preprint arXiv:2203.15455}, year={2022} }

搜集汇总
数据集介绍
main_image_url
构建方式
在粤语语音资源稀缺的背景下,WenetSpeech-Yue通过集成化流水线WenetSpeech-Pipe构建,涵盖音频采集、说话人多属性标注、语音质量评估、多系统自动语音识别、文本后处理及识别器输出投票六大模块。该流程从多领域长音频中经语音活动检测分割为 utterance 级片段,并融合SenseVoice、Whisper和TeleASR三大识别系统的转录结果,通过投票机制和LLM校正提升文本置信度,最终产出带多维元数据的高质量语料。
特点
作为目前规模最大的开源粤语语音数据集,WenetSpeech-Yue涵盖21,800小时音频,覆盖故事、娱乐、戏剧等10大领域,支持长短音频、语码转换及多领域场景。其核心特点在于多维标注体系,包括语音转录文本置信度、说话人年龄与性别、信号噪比、MOS音质评分及字符级时间戳,为语音理解与生成任务提供丰富监督信号。数据按置信度划分为强、中、弱三个子集,并包含12,000小时的高质量TTS专用数据。
使用方法
该数据集支持粤语自动语音识别与文本转语音任务的训练与评估。使用者可依据文本置信度选择子集进行模型训练:高置信度数据适用于精度敏感的监督学习,中低置信度数据可用于半监督或域适应学习。附加的说话人属性与音质标签支持风格化语音合成及鲁棒性建模。配套评估基准WSYue-eval提供ASR的短长语音测试集和TTS的基线与覆盖度测试集,支持模型在复杂语言现象与多场景下的性能验证。
背景与挑战
背景概述
随着语音理解与生成技术的快速发展,大规模高质量语音数据集成为推动自动语音识别(ASR)和文本转语音(TTS)等核心任务进步的关键基础。粤语作为全球约8490万母语者的重要汉语方言,其语音资源长期匮乏,严重制约了相关技术的性能提升。为此,西北工业大学音频、语音与语言处理组(ASLP@NPU)联合中国电信、香港科技大学等机构,于2025年发布了WenetSpeech-Yue数据集。该数据集涵盖21,800小时多领域粤语语音,并首次引入多维度标注体系,包括语音转录、说话人属性、音质评分等,旨在为粤语语音处理提供全面且高质量的资源支持,显著提升了粤语ASR和TTS模型的性能与泛化能力。
当前挑战
在领域问题层面,粤语语音处理面临独特挑战:其复杂的九声六调系统、文白异读现象以及频繁的粤英代码切换,要求模型具备高度的音韵学和语言学适应性。现有资源规模有限且标注单一,难以支撑鲁棒性强的多场景应用。在构建过程中,数据采集需覆盖多领域真实语音,而长音频分割、说话人分离与属性标注需克服噪声干扰和多样性缺失问题;转录环节通过集成SenseVoice、Whisper和TeleASR等多系统投票减少偏差,但文本后处理需统一繁简转换、标点去除和标准化格式;质量评估则需综合信噪比、MOS评分和带宽检测以确保数据可用性,这些步骤共同增加了数据处理流程的复杂性与计算成本。
常用场景
经典使用场景
在粤语语音处理研究中,WenetSpeech-Yue数据集被广泛应用于自动语音识别(ASR)和文本转语音(TTS)系统的训练与评估。其多维度标注特性支持模型在复杂声学条件下处理长音频、语码转换及多领域内容,例如在故事讲述、娱乐节目和新闻广播等场景中优化识别与合成效果。
衍生相关工作
基于WenetSpeech-Yue衍生的经典工作包括SenseVoice-Yue和Whisper-medium-Yue等优化模型,这些成果在Cantonese ASR和TTS任务中达到了先进性能。此外,该数据集促进了WSYue-eval基准的建立,为后续研究提供了标准化评估框架,并激发了多语言语音管道如WenetSpeech-Pipe的进一步发展。
数据集最近研究
最新研究方向
粤语语音处理领域因WenetSpeech-Yue数据集的发布迎来重大突破,该数据集以其21,800小时的多维度标注规模成为全球最大的开源粤语语音资源。前沿研究聚焦于利用其跨领域、多标签特性推动低资源方言的自动语音识别(ASR)与文本转语音(TTS)技术发展,尤其在处理粤语复杂声调系统、中英代码切换及长音频建模方面表现突出。热点方向包括集成大语言模型的混合ASR系统优化、零样本TTS的泛化能力提升,以及半监督学习在低置信度数据中的应用。该数据集显著缓解了粤语资源匮乏问题,为方言保护、智能语音交互及多模态人工智能系统提供了关键基础设施,推动学术与工业界在方言语音技术领域的协同创新。
相关研究论文
  • 1
    WenetSpeech-Yue: A Large-scale Cantonese Speech Corpus with Multi-dimensional Annotation西北工业大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作