OSUM

github2025-02-19 更新2025-02-20 收录

下载链接：

https://github.com/ASLP-lab/OSUM

下载链接

链接失效反馈

官方服务：

资源简介：

OSUM是一个开放的语音理解模型，旨在在有限的学术资源条件下探索训练语音理解语言模型（SULMs）的潜力。该模型结合了Whisper编码器与Qwen2大型语言模型，并支持多种语音任务，包括语音识别（ASR）、带时间戳的语音识别（SRWT）、语音事件检测（VED）、语音情感识别（SER）、说话风格识别（SSR）、说话人性别分类（SGC）、说话人年龄预测（SAP）和语音到文本聊天（STTC）。

OSUM is an open-source voice understanding model designed to explore the potential of training Speech Understanding Language Models (SULMs) under limited academic resources. The model integrates the Whisper encoder with the Qwen2 Large Language Model and supports a variety of voice tasks, including Automatic Speech Recognition (ASR), Speech Recognition with Timestamps (SRWT), Voice Event Detection (VED), Speech Emotion Recognition (SER), Speech Style Recognition (SSR), Speaker Gender Classification (SGC), Speaker Age Prediction (SAP), and Speech-to-Text Chat (STTC).

创建时间：

2025-01-20

原始信息汇总

OSUM 数据集概述

数据集简介

OSUM（Open Speech Understanding Model）是一个开放的语音理解模型，旨在在有限的学术资源条件下探索训练语音理解语言模型（SULM）的潜力。该模型结合了Whisper编码器与Qwen2大型语言模型，支持多种语音任务，包括语音识别（ASR）、带时间戳的语音识别（SRWT）、语音事件检测（VED）、语音情感识别（SER）、说话风格识别（SSR）、说话人性别分类（SGC）、说话人年龄预测（SAP）和语音到文本聊天（STTC）。

模型架构

OSUM模型的架构和任务概述如图所示。

OSUM Architecture

更新日志

2025.2.16：更新了技术报告（OSUM technical report v2.0），并发布了模型检查点以及在线测试页面（huggingface）。在技术报告v2.0中，OSUM模型经过更多的训练步骤，训练数据量增加至50.5K小时。
2025.1.22：发布了技术报告v1.0。

评估结果

OSUM模型在大多数任务上，尽管使用了显著更少的计算资源和训练数据，但性能优于Qwen2-Audio。
公共和内部测试集上的ASR任务评估结果如图所示。

ASR Evaluation Results

多任务在公共和内部测试集上的评估结果如图所示。

Multi-task Evaluation Results

使用说明

使用OSUM框架进行推理和训练的具体方法，请参考这里。

许可协议

OSUM使用Apache 2.0许可协议，允许研究者和开发者自由使用代码和模型权重，包括商业用途。

引用

@article{geng2025osum, title={{OSUM}: {Advancing} Open Speech Understanding Models with Limited Resources in Academia}, author={Geng, Xuelong and Wei, Kun and Shao, Qijie and Liu, Shuiyun and Lin, Zhennan and Zhao, Zhixian and Li, Guojian and Tian, Wenjie and Chen, Peikun and Li, Yangze and others}, journal={arXiv preprint arXiv:2501.13306}, year={2025} }

联系方式

如有任何问题或留言，请发送电子邮件至 xlgeng@mail.nwpu.edu.cn。

ASLP Team

搜集汇总

数据集介绍

构建方式

OSUM数据集的构建，是基于 Whisper 编码器与 Qwen2 大语言模型的结合，旨在利用有限的学术资源探索训练语音理解语言模型（SULMs）的潜力。该模型通过 ASR+X 训练策略，实现了在优化自动语音识别（ASR）的同时，对目标任务进行高效稳定的跨任务训练。

特点

OSUM数据集的特点在于其开放性，不仅提供了模型训练所需的准备数据和训练方法，还强调了训练透明度，为学术界的深入研究提供了可贵的洞见和实操指导。此外，该数据集覆盖了广泛的语音任务，如语音识别、情感识别、说话人风格识别等，并经过更多训练步骤和数据量的扩充，性能显著。

使用方法

使用OSUM数据集，用户需根据提供的指引安装必要的环境和依赖。具体使用方法可参照官方文档，其中包含了模型推理和训练的详细步骤，确保用户能够快速上手并应用于各类语音理解任务。

背景与挑战

背景概述

OSUM（Open Speech Understanding Model）是一款旨在在学术资源受限的条件下探索训练语音理解语言模型（SULM）潜力的开源模型。该模型由西北工业大学的研究团队开发，并于2025年发布。OSUM结合了Whisper编码器与Qwen2大型语言模型，支持多种语音任务，如自动语音识别（ASR）、带时间戳的语音识别（SRWT）、语音事件检测（VED）、语音情感识别（SER）、说话风格识别（SSR）、说话人性别分类（SGC）、说话人年龄预测（SAP）以及语音到文本聊天（STTC）。OSUM通过采用ASR+X训练策略，实现了高效稳定的多任务训练。该模型的开发为学术界提供了一种透明、可复制的语音理解模型，推动了相关领域的研究与创新。

当前挑战

OSUM在研究过程中面临的挑战主要包括：1）如何在有限的学术资源下，构建并训练一个高效的语音理解模型；2）如何在保证模型性能的同时，确保训练过程的透明度和可复现性；3）如何处理和优化不同语音任务的训练数据，特别是在数据量和质量上存在局限的情况下；4）如何在多任务训练中保持模型的有效性和稳定性。OSUM通过公开详细的数据准备和训练方法，努力克服了上述挑战，为学术界提供了一种新的研究路径和工具。

常用场景

经典使用场景

在当前语音理解模型的研发领域，OSUM数据集的提出，旨在针对学术资源受限的情况，探索开放语音理解模型的潜力。该数据集的经典使用场景，主要集中于对 Whisper 编码器与 Qwen2 大语言模型的结合，以实现包括语音识别、语音识别带时间戳、语音事件检测、语音情感识别、说话风格识别、说话人性别分类、说话人年龄预测以及语音转文本聊天等多种语音任务的训练与评估。

解决学术问题

OSUM数据集解决了学术研究中，尤其是在开放语音理解模型领域，由于资源和数据透明度不足所导致的创新障碍。它通过公开数据准备和训练方法，不仅提供了出色的性能表现，而且为学术社区提供了宝贵的洞见和实际指导，以加速先进语音理解模型技术的研究与创新。

衍生相关工作

基于OSUM数据集，学术界已衍生出一系列相关工作，进一步探索了在受限资源下语音模型的性能极限，以及不同训练策略和模型架构对语音理解任务的影响，推动了该领域的研究进展，并为后续研究提供了坚实的基础和丰富的实验数据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集