StepEval-Audio-360
收藏github2025-02-18 更新2025-02-19 收录
下载链接:
https://github.com/intervitens/Step-Audio
下载链接
链接失效反馈官方服务:
资源简介:
StepEval-Audio-360是一个多轮音频基准。
StepEval-Audio-360 is a multi-turn audio benchmark.
创建时间:
2025-02-18
原始信息汇总
Step-Audio
Step-Audio 是一个开源的智能语音交互框架,支持多语言对话(例如中文、英文、日语)、情感语调(例如喜悦/悲伤)、地方方言(例如广东话/四川话)、可调节的语速以及韵律风格(例如说唱)。Step-Audio 展示了四个关键技术创新:
- 130B-参数多模态模型:一个统一的大规模模型,集成理解与生成能力,执行语音识别、语义理解、对话、声音克隆和语音合成。
- 生成数据引擎:通过 130B-参数多模态模型生成高质量音频,消除了传统 TTS 对手动数据收集的依赖。
- 细粒度声音控制:通过指令控制设计,支持多情感(愤怒、喜悦、悲伤)、方言(广东话、四川话等)和声音风格(说唱、哼唱)。
- 增强智能:通过集成 ToolCall 机制和角色扮演增强,提高代理在复杂任务中的性能。
模型概要
Step-Audio 使用双码本框架对音频流进行标记,结合并行语义(16.7Hz,1024-条目码本)和声学(25Hz,4096-条目码本)标记器,以 2:3 的时序交错。基于 130B-参数 LLM(Step-1)的模型通过音频上下文持续预训练和特定任务后训练,实现强大的跨模态语音理解。混合语音解码器结合流匹配和神经编码,优化实时波形生成。
模型下载
-
Huggingface:
-
Modelscope:
模型使用
环境要求
- Python >= 3.10.0
- PyTorch >= 2.3-cu121
- CUDA Toolkit
推断脚本
- 离线推断
- TTS 推断
- 启动 Web Demo
基准测试
ASR 结果比较
| 数据集 | Whisper Large-v3 | Qwen2-Audio | MinMo | LUCY | Moshi | GLM-4-voice Base | GLM-4-voice Chat | Step-Audio Pretrain | Step-Audio-Chat |
|---|---|---|---|---|---|---|---|---|---|
| Aishell-1 | 5.14 | 1.53 | - | 2.4 | - | 2.46 | 226.47 | 0.87 | 1.95 |
| Aishell-2 ios | 4.76 | 3.06 | 2.69 | - | - | - | 211.3 | 2.91 | 3.57 |
| Wenetspeech test-net | 9.68 | 7.72 | 6.64 | 8.78 | - | - | 146.05 | 7.62 | 8.75 |
| Wenet test-meeting | 18.54 | 8.4 | 7.6 | 10.42 | - | - | 140.82 | 7.78 | 9.52 |
| Librispeech test-clean | 1.9 | 1.6 | 1.6 | 3.36 | 5.7 | 2.82 | 75.39 | 2.36 | 3.11 |
| Librispeech test-other | 3.65 | 3.6 | 3.82 | 8.05 | - | 7.66 | 80.3 | 6.32 | 8.44 |
| AVG | 7.28 | 4.32 | - | - | - | - | 146.74 | 4.64 | 5.89 |
TTS
内容一致性(CER/WER)性能比较
| 模型 | test-zh CER (%) | test-en WER (%) |
|---|---|---|
| GLM-4-Voice | 2.19 | 2.91 |
| MinMo | 2.48 | 2.90 |
| Step-Audio | 1.53 | 2.71 |
SEED 测试集上的 TTS 模型结果
| 模型 | test-zh CER (%) | test-zh SS ↑ | test-en WER (%) | test-en SS ↑ |
|---|---|---|---|---|
| FireRedTTS | 1.51 | 0.630 | 3.82 | 0.460 |
| MaskGCT | 2.27 | 0.774 | 2.62 | 0.774 |
| CosyVoice | 3.63 | 0.775 | 4.29 | 0.699 |
| CosyVoice 2 | 1.45 | 0.806 | 2.57 | 0.736 |
| CosyVoice 2-S | 1.45 | 0.812 | 2.38 | 0.743 |
| Step-Audio-TTS-3B-Single | 1.37 | 0.802 | 2.52 | 0.704 |
| Step-Audio-TTS-3B | 1.31 | 0.733 | 2.31 | 0.660 |
| Step-Audio-TTS | 1.17 | 0.73 | 2.0 | 0.660 |
双码本重合成与 Cosyvoice 的性能比较
| Token | test-zh CER (%) | test-zh SS ↑ | test-en WER (%) | test-en SS ↑ |
|---|---|---|---|---|
| Groundtruth | 0.972 | - | 2.156 | - |
| CosyVoice | 2.857 | 0.849 | 4.519 | 0.807 |
搜集汇总
数据集介绍

构建方式
Step-Audio-360数据集的构建采用了音频上下文化的持续预训练和特定任务的后续训练,结合了130B参数的多模态模型,以及创新的生成数据引擎和细粒度语音控制技术,构建了一个支持多语言、情感色调、方言和可调节语速的语音交互数据集。
特点
该数据集的特点在于集成了理解与生成于一体的130B参数多模态模型,创新的生成数据引擎,能够生成高质量音频,且具备细粒度语音控制和增强的智能性能,能够在复杂任务中提升智能体的表现。
使用方法
使用Step-Audio-360数据集时,首先需要在支持CUDA的NVIDIA GPU上安装必要的Python环境和依赖库,然后可以通过提供的脚本进行离线推理、文本到语音的转换,或者启动本地服务器进行在线推理。
背景与挑战
背景概述
Step-Audio是一个开源的智能语音交互框架,旨在实现理解和生成功能的和谐统一,支持多语言对话、情感语调、地区方言、可调节的语速和韵律风格。该框架由Stepfun-ai团队开发,并于2025年2月17日发布了相关的技术报告、推理代码和模型权重。Step-Audio的核心是一个1300亿参数的多模态模型,它集成了语音识别、语义理解、对话、声音克隆和语音合成等功能。该数据集的研究背景主要围绕提升智能语音交互的体验,解决多语言环境下的交互问题。
当前挑战
在构建Step-Audio数据集的过程中,研究团队面临了多个挑战。首先,需要构建一个能够生成高质量音频的生成数据引擎,以摆脱传统文本到语音(TTS)对手动数据收集的依赖。其次,要实现细粒度的声音控制,满足不同情感、方言和语音风格的需求。此外,团队还整合了ToolCall机制和角色扮演增强,以提高代理在复杂任务中的性能。在领域问题上,Step-Audio数据集解决了语音分类和识别的挑战,特别是在多语言环境下的准确性和流畅性。
常用场景
经典使用场景
Step-Audio-360数据集的经典使用场景在于为智能语音交互系统提供全面的多模态支持,包括对不同语言、情绪、方言的识别与生成,以及调整语速和语调风格等。该数据集支持的研究和应用能够实现自然流畅的人机对话体验,特别是在需要高度个性化的语音合成和识别任务中。
解决学术问题
该数据集解决了学术研究中在多语言、多情绪、多方言的语音识别与生成方面的难题,为研究提供了高质量的数据基础。它通过整合理解与生成能力,提高了语音-文本对的准确性和自然性,对语音合成、语音识别、多模态交互等领域的学术问题具有显著意义和影响。
衍生相关工作
基于Step-Audio-360数据集,研究者们已经开展了一系列相关工作,包括但不限于改进语音识别算法、开发新的语音合成模型、以及构建多模态交互系统等。这些工作推动了语音和语言处理技术的边界,为智能语音交互领域的发展做出了贡献。
以上内容由遇见数据集搜集并总结生成



