five

WenetSpeech-Yue

收藏
arXiv2025-09-05 更新2025-09-09 收录
下载链接:
https://github.com/wenet-e2e/wenet
下载链接
链接失效反馈
资源简介:
WenetSpeech-Yue是一个大规模的粤语语音语料库,包含多维度标注,适用于语音理解和生成任务。该数据集由西北工业大学音频、语音和语言处理小组创建,包含21800小时的语音数据,涵盖了10个不同的领域。数据集的标注包括ASR转录、文本置信度、说话者身份、年龄、性别、语音质量评分等。WenetSpeech-Yue是目前最大的开源粤语语音语料库,为粤语语音理解和生成提供了宝贵的资源。
提供机构:
西北工业大学
创建时间:
2025-09-04
原始信息汇总

WeNet 数据集概述

基本信息

  • 名称:WeNet
  • 许可协议:Apache 2.0
  • 编程语言:Python 3.7 或 3.8

核心特点

  • 生产优先且生产就绪:核心设计原则,提供全栈生产解决方案用于语音识别。
  • 准确:在多个公共语音数据集上实现SOTA结果。
  • 轻量:易于安装、使用,设计良好且文档完善。

安装与使用

Python包安装

sh pip install git+https://github.com/wenet-e2e/wenet.git

命令行使用

sh wenet -m paraformer audio.wav

  • 中文模型选项:paraformerfireredwenetspeech
  • 英文模型选项:whisper-large-v3whisper-large-v3-turbo

Python编程使用

python import wenet model = wenet.load_model(paraformer) result = model.transcribe(audio.wav) print(result.text)

训练与部署安装

  • 克隆仓库:git clone https://github.com/wenet-e2e/wenet.git
  • 创建Conda环境:Python 3.10
  • 安装CUDA:推荐CUDA 12.1
  • 安装Torch和TorchAudio:推荐版本2.2.2+cu121

昇腾NPU用户

  • 安装CANN工具包和内核
  • 安装WeNet与torch-npu依赖
  • 版本控制要求详见文档

运行时构建

  • 需要CMake 3.14或更高版本
  • 支持x86运行时和语言模型(LM)

支持与交流

  • 通过GitHub Issues讨论
  • 中文用户可通过微信公众号和微信群交流

致谢

  • 借鉴ESPnet的基于Transformer的建模代码
  • 借鉴Kaldi的基于WFST的LM集成解码代码
  • 参考EESEN构建基于TLG的LM集成图
  • 参考OpenTransformer实现端到端模型的Python批量推理

引用文献

bibtex @inproceedings{yao2021wenet, title={WeNet: Production oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit}, author={Yao, Zhuoyuan and Wu, Di and Wang, Xiong and Zhang, Binbin and Yu, Fan and Yang, Chao and Peng, Zhendong and Chen, Xiaoyu and Xie, Lei and Lei, Xin}, booktitle={Proc. Interspeech}, year={2021}, address={Brno, Czech Republic}, organization={IEEE} }

@article{zhang2022wenet, title={WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit}, author={Zhang, Binbin and Wu, Di and Peng, Zhendong and Song, Xingchen and Yao, Zhuoyuan and Lv, Hang and Xie, Lei and Yang, Chao and Pan, Fuping and Niu, Jianwei}, journal={arXiv preprint arXiv:2203.15455}, year={2022} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在粤语语音资源稀缺的背景下,WenetSpeech-Yue通过集成化流水线WenetSpeech-Pipe构建,涵盖音频采集、说话人多属性标注、语音质量评估、多系统自动语音识别、文本后处理及识别器输出投票六大模块。该流程从多领域长音频中经语音活动检测分割为 utterance 级片段,并融合SenseVoice、Whisper和TeleASR三大识别系统的转录结果,通过投票机制和LLM校正提升文本置信度,最终产出带多维元数据的高质量语料。
特点
作为目前规模最大的开源粤语语音数据集,WenetSpeech-Yue涵盖21,800小时音频,覆盖故事、娱乐、戏剧等10大领域,支持长短音频、语码转换及多领域场景。其核心特点在于多维标注体系,包括语音转录文本置信度、说话人年龄与性别、信号噪比、MOS音质评分及字符级时间戳,为语音理解与生成任务提供丰富监督信号。数据按置信度划分为强、中、弱三个子集,并包含12,000小时的高质量TTS专用数据。
使用方法
该数据集支持粤语自动语音识别与文本转语音任务的训练与评估。使用者可依据文本置信度选择子集进行模型训练:高置信度数据适用于精度敏感的监督学习,中低置信度数据可用于半监督或域适应学习。附加的说话人属性与音质标签支持风格化语音合成及鲁棒性建模。配套评估基准WSYue-eval提供ASR的短长语音测试集和TTS的基线与覆盖度测试集,支持模型在复杂语言现象与多场景下的性能验证。
背景与挑战
背景概述
随着语音理解与生成技术的快速发展,大规模高质量语音数据集成为推动自动语音识别(ASR)和文本转语音(TTS)等核心任务进步的关键基础。粤语作为全球约8490万母语者的重要汉语方言,其语音资源长期匮乏,严重制约了相关技术的性能提升。为此,西北工业大学音频、语音与语言处理组(ASLP@NPU)联合中国电信、香港科技大学等机构,于2025年发布了WenetSpeech-Yue数据集。该数据集涵盖21,800小时多领域粤语语音,并首次引入多维度标注体系,包括语音转录、说话人属性、音质评分等,旨在为粤语语音处理提供全面且高质量的资源支持,显著提升了粤语ASR和TTS模型的性能与泛化能力。
当前挑战
在领域问题层面,粤语语音处理面临独特挑战:其复杂的九声六调系统、文白异读现象以及频繁的粤英代码切换,要求模型具备高度的音韵学和语言学适应性。现有资源规模有限且标注单一,难以支撑鲁棒性强的多场景应用。在构建过程中,数据采集需覆盖多领域真实语音,而长音频分割、说话人分离与属性标注需克服噪声干扰和多样性缺失问题;转录环节通过集成SenseVoice、Whisper和TeleASR等多系统投票减少偏差,但文本后处理需统一繁简转换、标点去除和标准化格式;质量评估则需综合信噪比、MOS评分和带宽检测以确保数据可用性,这些步骤共同增加了数据处理流程的复杂性与计算成本。
常用场景
经典使用场景
在粤语语音处理研究中,WenetSpeech-Yue数据集被广泛应用于自动语音识别(ASR)和文本转语音(TTS)系统的训练与评估。其多维度标注特性支持模型在复杂声学条件下处理长音频、语码转换及多领域内容,例如在故事讲述、娱乐节目和新闻广播等场景中优化识别与合成效果。
衍生相关工作
基于WenetSpeech-Yue衍生的经典工作包括SenseVoice-Yue和Whisper-medium-Yue等优化模型,这些成果在Cantonese ASR和TTS任务中达到了先进性能。此外,该数据集促进了WSYue-eval基准的建立,为后续研究提供了标准化评估框架,并激发了多语言语音管道如WenetSpeech-Pipe的进一步发展。
数据集最近研究
最新研究方向
粤语语音处理领域因WenetSpeech-Yue数据集的发布迎来重大突破,该数据集以其21,800小时的多维度标注规模成为全球最大的开源粤语语音资源。前沿研究聚焦于利用其跨领域、多标签特性推动低资源方言的自动语音识别(ASR)与文本转语音(TTS)技术发展,尤其在处理粤语复杂声调系统、中英代码切换及长音频建模方面表现突出。热点方向包括集成大语言模型的混合ASR系统优化、零样本TTS的泛化能力提升,以及半监督学习在低置信度数据中的应用。该数据集显著缓解了粤语资源匮乏问题,为方言保护、智能语音交互及多模态人工智能系统提供了关键基础设施,推动学术与工业界在方言语音技术领域的协同创新。
相关研究论文
  • 1
    WenetSpeech-Yue: A Large-scale Cantonese Speech Corpus with Multi-dimensional Annotation西北工业大学 · 2025年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作