OSUM
收藏OSUM 数据集概述
数据集简介
OSUM(Open Speech Understanding Model)是一个开放的语音理解模型,旨在在有限的学术资源条件下探索训练语音理解语言模型(SULM)的潜力。该模型结合了Whisper编码器与Qwen2大型语言模型,支持多种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)和语音到文本聊天(STTC)。
模型架构
OSUM模型的架构和任务概述如图所示。

更新日志
- 2025.2.16:更新了技术报告(OSUM technical report v2.0),并发布了模型检查点以及在线测试页面(huggingface)。在技术报告v2.0中,OSUM模型经过更多的训练步骤,训练数据量增加至50.5K小时。
- 2025.1.22:发布了技术报告v1.0。
评估结果
- OSUM模型在大多数任务上,尽管使用了显著更少的计算资源和训练数据,但性能优于Qwen2-Audio。
- 公共和内部测试集上的ASR任务评估结果如图所示。

- 多任务在公共和内部测试集上的评估结果如图所示。

使用说明
使用OSUM框架进行推理和训练的具体方法,请参考这里。
许可协议
OSUM使用Apache 2.0许可协议,允许研究者和开发者自由使用代码和模型权重,包括商业用途。
引用
@article{geng2025osum, title={{OSUM}: {Advancing} Open Speech Understanding Models with Limited Resources in Academia}, author={Geng, Xuelong and Wei, Kun and Shao, Qijie and Liu, Shuiyun and Lin, Zhennan and Zhao, Zhixian and Li, Guojian and Tian, Wenjie and Chen, Peikun and Li, Yangze and others}, journal={arXiv preprint arXiv:2501.13306}, year={2025} }
联系方式
如有任何问题或留言,请发送电子邮件至 xlgeng@mail.nwpu.edu.cn。





