StepEval-Audio-360

github2025-02-18 更新2025-02-23 收录

下载链接：

https://github.com/lucasjinreal/StepAudioInfer

下载链接

链接失效反馈

官方服务：

资源简介：

StepEval-Audio-360是一个多轮音频基准数据集

StepEval-Audio-360 is a multi-turn audio benchmark dataset.

创建时间：

2025-02-18

原始信息汇总

Step-Audio 数据集概述

1. 简介

Step-Audio 是一个开源的智能语音交互框架，支持多语言对话（例如中文、英文、日语）、情感语调（例如喜悦/悲伤）、地方方言（例如粤语/四川话）、可调节的语速以及韵律风格（例如说唱）。Step-Audio 展示了四项关键技术创新：

130B参数多模态模型：一个集成了理解和生成能力的单一统一模型，执行语音识别、语义理解、对话、声音克隆和语音合成。
生成数据引擎：通过 130B 参数多模态模型生成高质量音频，消除了传统 TTS 对手动数据收集的依赖。
细粒度声音控制：通过基于指令的控制设计，支持多种情感（愤怒、喜悦、悲伤）、方言（粤语、四川话等）和声音风格（说唱、清唱哼唱）。
增强智能：通过集成 ToolCall 机制和角色扮演增强，提高代理在复杂任务中的性能。

2. 模型摘要

Step-Audio 使用双码本框架对音频流进行标记，结合并行语义（16.7Hz，1024 条目码本）和声学（25Hz，4096 条目码本）标记器，以 2:3 的时序交错。基于 130B 参数的 LLM 基础模型（Step-1）通过音频上下文化的持续预训练和任务特定的后训练，实现稳健的跨模态语音理解。混合语音解码器结合了流匹配和神经编码，优化实时波形生成。

3. 模型下载

Huggingface：
Modelscope：

4. 模型使用

4.1 要求

Python >= 3.10.0
PyTorch >= 2.3-cu121
CUDA Toolkit

4.2 依赖和安装

bash git clone https://github.com/stepfun-ai/Step-Audio.git conda create -n stepaudio python=3.10 conda activate stepaudio

cd Step-Audio pip install -r requirements.txt

git lfs install git clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer git clone https://huggingface.co/stepfun-ai/Step-Audio-Chat git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

4.3 推断脚本

离线推断 bash python offline_inference.py --model-path where_you_download_dir
TTS 推断 bash python tts_inference.py --model-path where_you_download_dir --output-path where_you_save_audio_dir --synthesis-type use_tts_or_clone
启动 Web Demo bash python app.py --model-path where_you_download_dir

5. 基准测试

5.1 ASR 结果比较

数据集	Whisper Large-v3	Qwen2-Audio	MinMo	LUCY	Moshi	GLM-4-voice Base	GLM-4-voice Chat	Step-Audio Pretrain	Step-Audio-Chat
Aishell-1	5.14	1.53	-	2.4	-	2.46	226.47	0.87	1.95
Aishell-2 ios	4.76	3.06	2.69	-	-	-	211.3	2.91	3.57
Wenetspeech test-net	9.68	7.72	6.64	8.78	-	-	146.05	7.62	8.75
Wenet test-meeting	18.54	8.4	7.6	10.42	-	-	140.82	7.78	9.52
Librispeech test-clean	1.9	1.6	1.6	3.36	5.7	2.82	75.39	2.36	3.11
Librispeech test-other	3.65	3.6	3.82	8.05	-	7.66	80.3	6.32	8.44
AVG	7.28	4.32	-	-	-	-	146.74	4.64	5.89

5.2 TTS

5.2.1 GLM-4-Voice 和 MinMo 内容一致性（CER/WER）性能比较。

模型	test-zh CER (%) ↓	test-en WER (%) ↓
GLM-4-Voice	2.19	2.91
MinMo	2.48	2.90
Step-Audio	1.53	2.71

5.2.2 TTS 模型在 SEED 测试集上的结果。

模型	test-zh CER (%) ↓	test-zh SS ↑	test-en WER (%) ↓	test-en SS ↑
FireRedTTS	1.51	0.630	3.82	0.460
MaskGCT	2.27	0.774	2.62	0.774
CosyVoice	3.63	0.775	4.29	0.699
CosyVoice 2	1.45	0.806	2.57	0.736
CosyVoice 2-S	1.45	0.812	2.38	0.743
Step-Audio-TTS-3B-Single	1.37	0.802	2.52	0.704
Step-Audio-TTS-3B	1.31	0.733	2.31	0.660
Step-Audio-TTS	1.17	0.73	2.0	0.660

5.2.3 双码本重合成与 Cosyvoice 的性能比较。

Token	test-zh CER (%) ↓	test-zh SS ↑	test-en WER (%) ↓	test-en SS ↑
Groundtruth	0.972	-	2.156	-
CosyVoice	2.857	0.849	4.519	0.807

搜集汇总

数据集介绍

构建方式

Step-Audio-360数据集的构建采用了音频上下文化的持续预训练和特定任务的后续训练，结合了130B参数的多模态模型，以及创新的生成数据引擎和细粒度声音控制技术，构建了一个支持多语言、情感色调、地区方言、可调节语速和韵律风格的大型语音交互数据集。

特点

该数据集的特点在于其多样性和创新性，包含了多种语言和方言的语音数据，支持情感和语速的调节，采用了先进的音频处理技术，且数据生成过程不依赖传统的手动数据收集，通过130B参数的多模态模型生成高质量音频，同时具有资源效率高的文本到语音模型。

使用方法

使用Step-Audio-360数据集时，用户需要具备NVIDIA GPU和相应的CUDA支持，安装Python环境以及所需的依赖库。数据集的使用包括离线推理、文本到语音合成（TTS）推理和启动Web演示等步骤，用户可以根据具体需求选择合适的使用方式。

背景与挑战

背景概述

Step-Audio-360数据集是一款专注于智能语音交互的开源框架，由Stepfun-ai团队创建于2025年。该数据集的核心研究问题是实现语音识别、语义理解、对话生成、声音克隆和语音合成的统一模型。Step-Audio-360的发布对于相关领域产生了重要影响，推动了智能语音交互技术的发展。

当前挑战

在构建Step-Audio-360数据集的过程中，研究团队面临了诸多挑战。首先，如何实现一个统一的大模型，既能理解语音也能生成语音，是一个技术难题。其次，生成高质量音频数据并训练高效的语音合成模型，需要解决数据采集和处理的问题。此外，模型在多语言、多情绪、多方言以及可调节的语速和语调上的精细控制，也是技术上的挑战。

常用场景

经典使用场景

Step-Audio-360数据集是专为智能语音交互设计的，它支持多语言对话、情感语调、地方方言、可调节的语速和韵律风格。该数据集的经典使用场景在于构建和训练能够理解和生成语音的智能对话系统，例如开发能够进行语音识别、语义理解、对话管理、声音克隆和语音合成的综合模型。

衍生相关工作

基于Step-Audio-360数据集，研究者们已经衍生出了一系列相关工作，包括但不限于改进的语音识别模型、更自然的语音合成方法、以及能够处理多轮对话的智能对话系统。这些工作进一步扩展了数据集的应用范围，推动了相关领域的科研进步。

数据集最近研究