five

StepEval-Audio-360

收藏
github2025-02-26 更新2025-02-19 收录
下载链接:
https://github.com/stepfun-ai/Step-Audio
下载链接
链接失效反馈
官方服务:
资源简介:
StepEval-Audio-360是一个多轮音频基准数据集。

StepEval-Audio-360 is a multi-turn audio benchmark dataset.
创建时间:
2025-02-11
原始信息汇总

Step-Audio 数据集概述

1. 简介

Step-Audio 是一个开源的智能语音交互框架,支持多语言对话(如中文、英文、日语)、情感音调(如快乐/悲伤)、地方方言(如粤语/四川话)、可调节的语速以及韵律风格(如说唱)。Step-Audio 展示了四项关键技术创新:

  • 130B-参数多模态模型:一个统一模型,集成了理解和生成能力,能进行语音识别、语义理解、对话、声音克隆和语音合成。已开源 130B 参数的 Step-Audio-Chat 变体。

  • 生成数据引擎:通过 130B-参数多模态模型生成高质量音频,消除了传统 TTS 对手动数据收集的依赖。利用这些数据训练并公开了一个资源高效的 Step-Audio-TTS-3B 模型,增强了指令跟随能力,以实现可控的语音合成。

  • 细粒度声音控制:通过基于指令的控制设计实现精确调节,支持多种情感(如愤怒、快乐、悲伤)、方言(如粤语、四川话)和声音风格(如说唱、哼唱)以满足多样化的语音生成需求。

  • 增强智能:通过集成 ToolCall 机制和角色扮演增强,提高代理在复杂任务中的性能。

2. 模型摘要

Step-Audio 使用双码本框架对音频流进行标记,结合并行语义(16.7Hz,1024-条目码本)和声学(25Hz,4096-条目码本)标记器,以 2:3 的时序交错。基于 130B 参数的 LLM 基础模型(Step-1)通过音频上下文化的持续预训练和特定任务的后训练,实现稳健的跨模态语音理解。混合语音解码器结合流匹配和神经编码,针对实时波形生成进行优化。

3. 模型下载

  • Huggingface:提供 Step-Audio-Tokenizer、Step-Audio-Chat 和 Step-Audio-TTS-3B 模型的下载链接。
  • Modelscope:同样提供上述模型的下载链接。

4. 模型使用

  • 环境要求:需要 NVIDIA GPU 支持 CUDA,推荐使用 4xA800/H800 GPU,操作系统为 Linux。
  • 依赖和安装:需要 Python 3.10.0 及以上版本,PyTorch 2.3-cu121 和 CUDA Toolkit。
  • 推理脚本:提供离线推理、TTS 推理、启动 Web 演示和推理聊天模型的脚本。

5. 基准测试

  • ASR 结果比较:展示了 Step-Audio 与其他模型在多个数据集上的 ASR 性能比较。
  • TTS
    • 内容一致性性能比较:比较了 GLM-4-Voice 和 MinMo 在内容一致性(CER/WER)方面的性能。
    • TTS 模型在 SEED 测试集上的结果:展示了 Step-Audio-TTS-3B-Single 和 Step-Audio-TTS-3B 在中文和英文测试集上的性能。
    • 双码本重合成性能比较:比较了双码本重合成与 Cosyvoice 的性能。
搜集汇总
数据集介绍
main_image_url
构建方式
Step-Audio-360数据集的构建采用了音频语境化的持续预训练和任务特定的后训练,以提升跨模态语音理解能力。该数据集结合了双码本框架,实现了音频流的有效标记,并通过混合解码器架构,优化了实时波形生成质量。
特点
该数据集的特点在于集成了理解与生成于一体的Step-Audio框架,支持多语言对话、情感音调、方言、可调节的语速和韵律风格。此外,数据集通过双码本框架和优化的解码器,实现了高质量的音频合成和精确的语音控制。
使用方法
使用Step-Audio-360数据集时,用户需要具备NVIDIA GPU和CUDA支持,并安装相应的Python环境和依赖库。数据集提供了离线推理、文本到语音合成和启动Web演示等多种使用方式,同时支持通过vLLM进行 tensor parallelism 的推理。
背景与挑战
背景概述
Step-Audio-360数据集是一款专注于智能语音交互的开源框架,该框架由Step-Audio项目团队开发,旨在支持多语言对话、情感语调、地方方言、可调节的语速以及韵律风格。该数据集于2025年2月17日发布,主要研究人员来自Step-Audio项目团队,核心研究问题包括语音识别、语义理解、对话系统、声音克隆和语音合成等。Step-Audio-360数据集的发布对相关领域产生了显著影响,推动了智能语音交互技术的发展。
当前挑战
在构建Step-Audio-360数据集的过程中,研究团队面临了多个挑战。首先,如何设计一个能够有效处理多种语言、情感和方言的统一模型是一个重大挑战。其次,生成高质量音频数据以训练模型,同时保证资源效率,也是构建过程中的一大难题。此外,团队还需要解决如何通过指令控制实现细粒度的声音调节,以及如何在复杂任务中提高智能体的性能等挑战。
常用场景
经典使用场景
Step-Audio-360数据集是专为智能语音交互设计的,其经典使用场景在于为语音识别、语音合成、多轮对话等任务提供高质量的音频数据,以支持多语言、情感音调、地方方言、可调节的语速和韵律风格等特性,使得研究者和开发者能够在此数据集上训练和测试他们的模型,从而实现更加自然和流畅的人机对话体验。
衍生相关工作
基于Step-Audio-360数据集,已经衍生出了一系列相关工作,包括但不限于对多模态模型的研究、对语音生成和识别算法的改进、以及针对特定场景如教育、医疗等领域的定制化语音交互系统的开发,这些工作进一步扩展了数据集的应用范围和影响力。
数据集最近研究
最新研究方向
Step-Audio-360数据集是近期发布的多turn音频基准,它旨在为智能语音交互领域提供全面的测试标准。该数据集结合了Step-Audio框架的技术创新,如130B参数的多模态模型、生成数据引擎、细粒度语音控制和增强智能,这些特点使其在理解生成型对话系统中具有前沿性。研究方向的焦点在于提升语音识别、语义理解、对话生成和语音合成等环节的性能,通过该数据集的发布,相关研究得以在多语言对话、情感语调、方言调整和语调风格等方面取得显著进展,对智能语音交互领域产生了重要影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作