StepEval-Audio-360

github2025-02-26 更新2025-02-19 收录

下载链接：

https://github.com/stepfun-ai/Step-Audio

下载链接

链接失效反馈

官方服务：

资源简介：

StepEval-Audio-360是一个多轮音频基准数据集。

StepEval-Audio-360 is a multi-turn audio benchmark dataset.

创建时间：

2025-02-11

原始信息汇总

Step-Audio 数据集概述

1. 简介

Step-Audio 是一个开源的智能语音交互框架，支持多语言对话（如中文、英文、日语）、情感音调（如快乐/悲伤）、地方方言（如粤语/四川话）、可调节的语速以及韵律风格（如说唱）。Step-Audio 展示了四项关键技术创新：

130B-参数多模态模型：一个统一模型，集成了理解和生成能力，能进行语音识别、语义理解、对话、声音克隆和语音合成。已开源 130B 参数的 Step-Audio-Chat 变体。
生成数据引擎：通过 130B-参数多模态模型生成高质量音频，消除了传统 TTS 对手动数据收集的依赖。利用这些数据训练并公开了一个资源高效的 Step-Audio-TTS-3B 模型，增强了指令跟随能力，以实现可控的语音合成。
细粒度声音控制：通过基于指令的控制设计实现精确调节，支持多种情感（如愤怒、快乐、悲伤）、方言（如粤语、四川话）和声音风格（如说唱、哼唱）以满足多样化的语音生成需求。
增强智能：通过集成 ToolCall 机制和角色扮演增强，提高代理在复杂任务中的性能。

2. 模型摘要

Step-Audio 使用双码本框架对音频流进行标记，结合并行语义（16.7Hz，1024-条目码本）和声学（25Hz，4096-条目码本）标记器，以 2:3 的时序交错。基于 130B 参数的 LLM 基础模型（Step-1）通过音频上下文化的持续预训练和特定任务的后训练，实现稳健的跨模态语音理解。混合语音解码器结合流匹配和神经编码，针对实时波形生成进行优化。

3. 模型下载

Huggingface：提供 Step-Audio-Tokenizer、Step-Audio-Chat 和 Step-Audio-TTS-3B 模型的下载链接。
Modelscope：同样提供上述模型的下载链接。

4. 模型使用

环境要求：需要 NVIDIA GPU 支持 CUDA，推荐使用 4xA800/H800 GPU，操作系统为 Linux。
依赖和安装：需要 Python 3.10.0 及以上版本，PyTorch 2.3-cu121 和 CUDA Toolkit。
推理脚本：提供离线推理、TTS 推理、启动 Web 演示和推理聊天模型的脚本。

5. 基准测试

ASR 结果比较：展示了 Step-Audio 与其他模型在多个数据集上的 ASR 性能比较。
TTS：
- 内容一致性性能比较：比较了 GLM-4-Voice 和 MinMo 在内容一致性（CER/WER）方面的性能。
- TTS 模型在 SEED 测试集上的结果：展示了 Step-Audio-TTS-3B-Single 和 Step-Audio-TTS-3B 在中文和英文测试集上的性能。
- 双码本重合成性能比较：比较了双码本重合成与 Cosyvoice 的性能。

搜集汇总

数据集介绍

构建方式

Step-Audio-360数据集的构建采用了音频语境化的持续预训练和任务特定的后训练，以提升跨模态语音理解能力。该数据集结合了双码本框架，实现了音频流的有效标记，并通过混合解码器架构，优化了实时波形生成质量。

特点

该数据集的特点在于集成了理解与生成于一体的Step-Audio框架，支持多语言对话、情感音调、方言、可调节的语速和韵律风格。此外，数据集通过双码本框架和优化的解码器，实现了高质量的音频合成和精确的语音控制。

使用方法

使用Step-Audio-360数据集时，用户需要具备NVIDIA GPU和CUDA支持，并安装相应的Python环境和依赖库。数据集提供了离线推理、文本到语音合成和启动Web演示等多种使用方式，同时支持通过vLLM进行 tensor parallelism 的推理。

背景与挑战

背景概述

Step-Audio-360数据集是一款专注于智能语音交互的开源框架，该框架由Step-Audio项目团队开发，旨在支持多语言对话、情感语调、地方方言、可调节的语速以及韵律风格。该数据集于2025年2月17日发布，主要研究人员来自Step-Audio项目团队，核心研究问题包括语音识别、语义理解、对话系统、声音克隆和语音合成等。Step-Audio-360数据集的发布对相关领域产生了显著影响，推动了智能语音交互技术的发展。

当前挑战

在构建Step-Audio-360数据集的过程中，研究团队面临了多个挑战。首先，如何设计一个能够有效处理多种语言、情感和方言的统一模型是一个重大挑战。其次，生成高质量音频数据以训练模型，同时保证资源效率，也是构建过程中的一大难题。此外，团队还需要解决如何通过指令控制实现细粒度的声音调节，以及如何在复杂任务中提高智能体的性能等挑战。

常用场景

经典使用场景

Step-Audio-360数据集是专为智能语音交互设计的，其经典使用场景在于为语音识别、语音合成、多轮对话等任务提供高质量的音频数据，以支持多语言、情感音调、地方方言、可调节的语速和韵律风格等特性，使得研究者和开发者能够在此数据集上训练和测试他们的模型，从而实现更加自然和流畅的人机对话体验。

衍生相关工作

基于Step-Audio-360数据集，已经衍生出了一系列相关工作，包括但不限于对多模态模型的研究、对语音生成和识别算法的改进、以及针对特定场景如教育、医疗等领域的定制化语音交互系统的开发，这些工作进一步扩展了数据集的应用范围和影响力。

数据集最近研究