StepEval-Audio-360
收藏Step-Audio 数据集概述
1. 简介
Step-Audio 是一个开源的智能语音交互框架,支持多语言对话(例如中文、英文、日语)、情感语调(例如喜悦/悲伤)、地方方言(例如粤语/四川话)、可调节的语速以及韵律风格(例如说唱)。Step-Audio 展示了四项关键技术创新:
- 130B参数多模态模型:一个集成了理解和生成能力的单一统一模型,执行语音识别、语义理解、对话、声音克隆和语音合成。
- 生成数据引擎:通过 130B 参数多模态模型生成高质量音频,消除了传统 TTS 对手动数据收集的依赖。
- 细粒度声音控制:通过基于指令的控制设计,支持多种情感(愤怒、喜悦、悲伤)、方言(粤语、四川话等)和声音风格(说唱、清唱哼唱)。
- 增强智能:通过集成 ToolCall 机制和角色扮演增强,提高代理在复杂任务中的性能。
2. 模型摘要
Step-Audio 使用双码本框架对音频流进行标记,结合并行语义(16.7Hz,1024 条目码本)和声学(25Hz,4096 条目码本)标记器,以 2:3 的时序交错。基于 130B 参数的 LLM 基础模型(Step-1)通过音频上下文化的持续预训练和任务特定的后训练,实现稳健的跨模态语音理解。混合语音解码器结合了流匹配和神经编码,优化实时波形生成。
3. 模型下载
- Huggingface:
- Modelscope:
4. 模型使用
4.1 要求
- Python >= 3.10.0
- PyTorch >= 2.3-cu121
- CUDA Toolkit
4.2 依赖和安装
bash git clone https://github.com/stepfun-ai/Step-Audio.git conda create -n stepaudio python=3.10 conda activate stepaudio
cd Step-Audio pip install -r requirements.txt
git lfs install git clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer git clone https://huggingface.co/stepfun-ai/Step-Audio-Chat git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B
4.3 推断脚本
-
离线推断 bash python offline_inference.py --model-path where_you_download_dir
-
TTS 推断 bash python tts_inference.py --model-path where_you_download_dir --output-path where_you_save_audio_dir --synthesis-type use_tts_or_clone
-
启动 Web Demo bash python app.py --model-path where_you_download_dir
5. 基准测试
5.1 ASR 结果比较
| 数据集 | Whisper Large-v3 | Qwen2-Audio | MinMo | LUCY | Moshi | GLM-4-voice Base | GLM-4-voice Chat | Step-Audio Pretrain | Step-Audio-Chat |
|---|---|---|---|---|---|---|---|---|---|
| Aishell-1 | 5.14 | 1.53 | - | 2.4 | - | 2.46 | 226.47 | 0.87 | 1.95 |
| Aishell-2 ios | 4.76 | 3.06 | 2.69 | - | - | - | 211.3 | 2.91 | 3.57 |
| Wenetspeech test-net | 9.68 | 7.72 | 6.64 | 8.78 | - | - | 146.05 | 7.62 | 8.75 |
| Wenet test-meeting | 18.54 | 8.4 | 7.6 | 10.42 | - | - | 140.82 | 7.78 | 9.52 |
| Librispeech test-clean | 1.9 | 1.6 | 1.6 | 3.36 | 5.7 | 2.82 | 75.39 | 2.36 | 3.11 |
| Librispeech test-other | 3.65 | 3.6 | 3.82 | 8.05 | - | 7.66 | 80.3 | 6.32 | 8.44 |
| AVG | 7.28 | 4.32 | - | - | - | - | 146.74 | 4.64 | 5.89 |
5.2 TTS
5.2.1 GLM-4-Voice 和 MinMo 内容一致性(CER/WER)性能比较。
| 模型 | test-zh CER (%) ↓ | test-en WER (%) ↓ |
|---|---|---|
| GLM-4-Voice | 2.19 | 2.91 |
| MinMo | 2.48 | 2.90 |
| Step-Audio | 1.53 | 2.71 |
5.2.2 TTS 模型在 SEED 测试集上的结果。
| 模型 | test-zh CER (%) ↓ | test-zh SS ↑ | test-en WER (%) ↓ | test-en SS ↑ |
|---|---|---|---|---|
| FireRedTTS | 1.51 | 0.630 | 3.82 | 0.460 |
| MaskGCT | 2.27 | 0.774 | 2.62 | 0.774 |
| CosyVoice | 3.63 | 0.775 | 4.29 | 0.699 |
| CosyVoice 2 | 1.45 | 0.806 | 2.57 | 0.736 |
| CosyVoice 2-S | 1.45 | 0.812 | 2.38 | 0.743 |
| Step-Audio-TTS-3B-Single | 1.37 | 0.802 | 2.52 | 0.704 |
| Step-Audio-TTS-3B | 1.31 | 0.733 | 2.31 | 0.660 |
| Step-Audio-TTS | 1.17 | 0.73 | 2.0 | 0.660 |
5.2.3 双码本重合成与 Cosyvoice 的性能比较。
| Token | test-zh CER (%) ↓ | test-zh SS ↑ | test-en WER (%) ↓ | test-en SS ↑ |
|---|---|---|---|---|
| Groundtruth | 0.972 | - | 2.156 | - |
| CosyVoice | 2.857 | 0.849 | 4.519 | 0.807 |




