Step-Audio-Edit-Benchmark
收藏Step-Audio-Edit-Benchmark 数据集概述
数据集简介
Step-Audio-Edit-Benchmark是一个全面的可控语音合成评估框架,涵盖情感、说话风格和副语言特征。该数据集基于技术报告《Step-Audio-EditX》构建。
数据集构成
提示音频数据
- 语言分布:包含8个说话人(4个中文,4个英文)
- 性别平衡:每种语言包含2名男性和2名女性
- 数据来源:
- 中文数据:来自WenetSpeech4TTS数据集
- 英文数据:来自GLOBE_V2和Libri-Light数据集
说话人详情
中文说话人:
- Y0000004339_A_SMNK0c4uM_S00403-S00406(女性,WenetSpeech4TTS)
- X0000015410_331546220_S00073-S00074(女性,WenetSpeech4TTS)
- X0000005119_6330761_S01227-S01229(男性,WenetSpeech4TTS)
- X0000000863_279853194_S00611-S00612(男性,WenetSpeech4TTS)
英文说话人:
- 7859-102518-0004(女性,Libri-Light)
- 20870(女性,GLOBE_V2)
- 167(男性,GLOBE_V2)
- 502292(男性,GLOBE_V2)
文本转录数据
包含三个JSONL文件:
情感数据(emotion.jsonl)
- 样本数量:2,000个文本样本
- 情感类别:快乐、悲伤、愤怒、惊讶、恐惧
说话风格数据(style.jsonl)
- 样本数量:2,800个文本样本
- 风格类别:儿童、夸张、朗诵、慷慨、撒娇、老年、耳语
副语言数据(paralinguistic.jsonl)
- 样本数量:4,000个文本样本
- 涵盖现象:呼吸、笑声、惊讶等
数据结构
json { "id": "样本标识", "speaker": "说话人", "gen_text": "生成文本", "prompt_audio": "提示音频路径", "prompt_text": "提示文本", "lang": "语言", "task": "任务类型", "task_sub": "子任务类别" }
评估方法
核心模型
使用Gemini-2.5-Pro作为所有评估任务的核心模型
评估指标
- 情感和说话风格:采用分类准确率
- 副语言特征:采用评分机制(1-3分)
评估流程
- 情感和风格任务:Gemini进行强制选择分类
- 副语言任务:采用评分方法
评估脚本
gemini_infer.py
用于生成音频后执行Gemini评估 bash python3 script/gemini_infer.py --input_jsonl dataset.jsonl --task_type emotion --api_key ${Your Gemini Key} --prompt_file script/gemini_prompt.json --num_workers 10
get_gemini_emotion_style_acc.py
计算情感和说话风格任务的准确率 bash python3 get_gemini_emotion_style_acc.py --gemini_res_jsonl dataset_gemini.jsonl --iters "0,1,2,3" --output_excel dataset_gemini.xlsx
get_gemini_paralingustic_score.py
计算副语言任务的评分指标 bash python3 get_gemini_paralingustic_score.py --gemini_res_jsonl paralingustic_res.jsonl --output_excel paralingustic_metric.xlsx
许可证
代码采用Apache 2.0许可证
引用信息
bibtex @misc{yan2025stepaudioeditxtechnicalreport, title={Step-Audio-EditX Technical Report}, author={Chao Yan and Boyong Wu and Peng Yang and Pengfei Tan and Guoqiang Hu and Yuxin Zhang and Xiangyu and Zhang and Fei Tian and Xuerui Yang and Xiangyu Zhang and Daxin Jiang and Gang Yu}, year={2025}, eprint={2511.03601}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.03601}, }




