WenetSpeech-Yue
收藏WeNet 数据集概述
基本信息
- 名称:WeNet
- 许可协议:Apache 2.0
- 编程语言:Python 3.7 或 3.8
核心特点
- 生产优先且生产就绪:核心设计原则,提供全栈生产解决方案用于语音识别。
- 准确:在多个公共语音数据集上实现SOTA结果。
- 轻量:易于安装、使用,设计良好且文档完善。
安装与使用
Python包安装
sh pip install git+https://github.com/wenet-e2e/wenet.git
命令行使用
sh wenet -m paraformer audio.wav
- 中文模型选项:
paraformer、firered、wenetspeech - 英文模型选项:
whisper-large-v3、whisper-large-v3-turbo
Python编程使用
python import wenet model = wenet.load_model(paraformer) result = model.transcribe(audio.wav) print(result.text)
训练与部署安装
- 克隆仓库:
git clone https://github.com/wenet-e2e/wenet.git - 创建Conda环境:Python 3.10
- 安装CUDA:推荐CUDA 12.1
- 安装Torch和TorchAudio:推荐版本2.2.2+cu121
昇腾NPU用户
- 安装CANN工具包和内核
- 安装WeNet与torch-npu依赖
- 版本控制要求详见文档
运行时构建
- 需要CMake 3.14或更高版本
- 支持x86运行时和语言模型(LM)
支持与交流
- 通过GitHub Issues讨论
- 中文用户可通过微信公众号和微信群交流
致谢
- 借鉴ESPnet的基于Transformer的建模代码
- 借鉴Kaldi的基于WFST的LM集成解码代码
- 参考EESEN构建基于TLG的LM集成图
- 参考OpenTransformer实现端到端模型的Python批量推理
引用文献
bibtex @inproceedings{yao2021wenet, title={WeNet: Production oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit}, author={Yao, Zhuoyuan and Wu, Di and Wang, Xiong and Zhang, Binbin and Yu, Fan and Yang, Chao and Peng, Zhendong and Chen, Xiaoyu and Xie, Lei and Lei, Xin}, booktitle={Proc. Interspeech}, year={2021}, address={Brno, Czech Republic}, organization={IEEE} }
@article{zhang2022wenet, title={WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit}, author={Zhang, Binbin and Wu, Di and Peng, Zhendong and Song, Xingchen and Yao, Zhuoyuan and Lv, Hang and Xie, Lei and Yang, Chao and Pan, Fuping and Niu, Jianwei}, journal={arXiv preprint arXiv:2203.15455}, year={2022} }

- 1WenetSpeech-Yue: A Large-scale Cantonese Speech Corpus with Multi-dimensional Annotation西北工业大学 · 2025年



