Step-Audio-Edit-Benchmark

github2025-11-22 更新2025-11-25 收录

下载链接：

https://github.com/stepfun-ai/Step-Audio-Edit-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Step-Audio-Edit-Benchmark是一个全面的音频编辑评估数据集，涵盖情感、说话风格和副语言特征。数据集包含8位说话者（4位中文和4位英文），男女各半，中文数据来自WenetSpeech4TTS，英文数据来自GLOBE_V2和Libri-Light。Transcripts包括emotion.jsonl（2000个样本，覆盖5种情感类别）、style.jsonl（2800个样本，覆盖7种说话风格）和paralinguistic.jsonl（4000个样本，覆盖呼吸、笑声等副语言现象）。数据字段包括ID、说话者、生成文本、提示音频、语言、任务类型等。

Step-Audio-Edit-Benchmark is a comprehensive audio editing evaluation dataset covering emotion, speaking style, and paralinguistic features. It includes 8 speakers (4 Chinese and 4 English), with an equal split of male and female speakers. The Chinese portion of the dataset is sourced from WenetSpeech4TTS, while the English portion is derived from GLOBE_V2 and Libri-Light. The associated transcripts are stored in three files: emotion.jsonl (2000 samples covering 5 emotion categories), style.jsonl (2800 samples covering 7 speaking styles), and paralinguistic.jsonl (4000 samples covering paralinguistic phenomena such as breathing and laughter). The dataset fields include ID, speaker, generated text, prompt audio, language, task type, and other relevant attributes.

创建时间：

2025-11-20

原始信息汇总

Step-Audio-Edit-Benchmark 数据集概述

数据集简介

Step-Audio-Edit-Benchmark是一个全面的可控语音合成评估框架，涵盖情感、说话风格和副语言特征。该数据集基于技术报告《Step-Audio-EditX》构建。

数据集构成

提示音频数据

语言分布：包含8个说话人（4个中文，4个英文）
性别平衡：每种语言包含2名男性和2名女性
数据来源：
- 中文数据：来自WenetSpeech4TTS数据集
- 英文数据：来自GLOBE_V2和Libri-Light数据集

说话人详情

中文说话人：

Y0000004339_A_SMNK0c4uM_S00403-S00406（女性，WenetSpeech4TTS）
X0000015410_331546220_S00073-S00074（女性，WenetSpeech4TTS）
X0000005119_6330761_S01227-S01229（男性，WenetSpeech4TTS）
X0000000863_279853194_S00611-S00612（男性，WenetSpeech4TTS）

英文说话人：

7859-102518-0004（女性，Libri-Light）
20870（女性，GLOBE_V2）
167（男性，GLOBE_V2）
502292（男性，GLOBE_V2）

文本转录数据

包含三个JSONL文件：

情感数据（emotion.jsonl）

样本数量：2,000个文本样本
情感类别：快乐、悲伤、愤怒、惊讶、恐惧

说话风格数据（style.jsonl）

样本数量：2,800个文本样本
风格类别：儿童、夸张、朗诵、慷慨、撒娇、老年、耳语

副语言数据（paralinguistic.jsonl）

样本数量：4,000个文本样本
涵盖现象：呼吸、笑声、惊讶等

数据结构

json { "id": "样本标识", "speaker": "说话人", "gen_text": "生成文本", "prompt_audio": "提示音频路径", "prompt_text": "提示文本", "lang": "语言", "task": "任务类型", "task_sub": "子任务类别" }

评估方法

核心模型

使用Gemini-2.5-Pro作为所有评估任务的核心模型

评估指标

情感和说话风格：采用分类准确率
副语言特征：采用评分机制（1-3分）

评估流程

情感和风格任务：Gemini进行强制选择分类
副语言任务：采用评分方法

评估脚本

gemini_infer.py

用于生成音频后执行Gemini评估 bash python3 script/gemini_infer.py --input_jsonl dataset.jsonl --task_type emotion --api_key ${Your Gemini Key} --prompt_file script/gemini_prompt.json --num_workers 10

get_gemini_emotion_style_acc.py

计算情感和说话风格任务的准确率 bash python3 get_gemini_emotion_style_acc.py --gemini_res_jsonl dataset_gemini.jsonl --iters "0,1,2,3" --output_excel dataset_gemini.xlsx

get_gemini_paralingustic_score.py

计算副语言任务的评分指标 bash python3 get_gemini_paralingustic_score.py --gemini_res_jsonl paralingustic_res.jsonl --output_excel paralingustic_metric.xlsx

许可证

代码采用Apache 2.0许可证

引用信息

bibtex @misc{yan2025stepaudioeditxtechnicalreport, title={Step-Audio-EditX Technical Report}, author={Chao Yan and Boyong Wu and Peng Yang and Pengfei Tan and Guoqiang Hu and Yuxin Zhang and Xiangyu and Zhang and Fei Tian and Xuerui Yang and Xiangyu Zhang and Daxin Jiang and Gang Yu}, year={2025}, eprint={2511.03601}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.03601}, }

搜集汇总

数据集介绍

构建方式

在语音合成评估领域，构建高质量数据集需兼顾多样性与平衡性。Step-Audio-Edit-Benchmark通过整合多源语音数据实现构建，从WenetSpeech4TTS选取四名中文说话人，GLOBE_V2与Libri-Light选取四名英文说话人，严格保持性别与语言分布均衡。文本标注涵盖情感、说话风格与副语言三大维度，分别包含2000条情感文本、2800条风格文本及4000条副语言文本，每条数据均关联说话人身份、提示音频与任务标签，形成结构化评估单元。

特点

该数据集以细粒度属性覆盖为显著特征，突破传统单维度评估局限。情感维度囊括喜悦、悲伤等五类离散状态，说话风格维度呈现儿童化、朗诵式等七种典型模式，副语言维度则聚焦呼吸声、笑声等非语义元素。所有样本均配备双语对照与说话人元数据，支持跨语言语音生成研究。其评估框架特别设计长音频样本，可有效检验闭源模型的音色克隆能力，为可控语音合成提供多角度验证基础。

使用方法

基于Gemini-2.5-Pro核心模型，本数据集提供标准化评估流程。针对情感与风格任务采用分类准确率指标，模型通过预定义类别进行强制选择；副语言任务则使用1-3分量表进行评分。实际操作时需先运行gemini_infer.py生成评估结果，随后通过专用脚本计算各项指标：get_gemini_emotion_style_acc.py输出分类准确率，get_gemini_paralingustic_score.py统计副语言得分。评估过程支持多线程并行，需预先配置API密钥与提示模板文件。

背景与挑战

背景概述

在可控语音合成领域，传统评估方法长期受限于单一维度评测框架的局限性。2025年，研究团队通过技术报告《Step-Audio-EditX》正式推出Step-Audio-Edit-Benchmark，该基准整合了情感表达、说话风格与副语言特征三大核心维度，构建了跨语言（中英文）平衡的语音样本库。其创新性地采用多源数据融合策略，从WenetSpeech4TTS、GLOBE_V2等权威语料库中精选8位发音人样本，为语音属性精细控制研究提供了系统化评估范式，显著推进了语音合成技术向人性化、多元化方向发展。

当前挑战

该数据集致力于解决可控语音合成中多属性协同编辑的评估难题，其核心挑战在于如何建立跨情感类别、说话风格与副语言现象的统一度量标准。在构建过程中面临三重技术壁垒：多源语音数据的声学特征对齐需要克服采样率与信噪比差异；副语言标注体系需平衡主观感知与客观指标的对立；评估流程设计必须确保Gemini大模型在跨语言场景下分类准确度与评分一致性的平衡，这些因素共同构成了该基准在数据标准化与评估可信度方面的核心挑战。

常用场景

经典使用场景

在可控语音合成领域，Step-Audio-Edit-Benchmark作为综合性评估框架，其经典应用场景集中于对多维度语音属性的精细调控与验证。该数据集通过整合情感、说话风格与副语言特征三大模块，为研究者提供了系统化的测试环境。在具体实践中，模型开发者能够基于预设的文本提示与音频样本，生成具有特定情感色彩或风格特征的语音输出，并通过标准化流程评估其生成质量与可控性。这种集成化评估方式显著提升了语音合成系统在复杂场景下的适应能力。

实际应用

在工业应用层面，该数据集为智能语音助手、虚拟人交互系统提供了关键的技术验证工具。基于其构建的评估流程可直接应用于语音合成产品的质量检测，例如通过情感分类准确率优化虚拟主播的情感表现力，或借助副语言评分提升对话系统的自然度。多语言样本的设计尤其适用于全球化产品的本地化适配，其标准化的评测方法已成为企业级语音系统开发流程中的重要环节。

衍生相关工作

该基准的推出催生了系列创新性研究，其中最具代表性的是Step-Audio-EditX技术报告提出的渐进式音频编辑框架。基于该数据集构建的评估体系进一步启发了Gemini-2.5-Pro在语音理解任务中的迁移应用，推动了大规模语言模型与语音合成的跨模态融合。后续研究通过扩展多语言评估维度与细粒度属性控制，逐步形成了覆盖语音生成全链路的标准化评测生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集