CV3-Eval
收藏CV3-Eval数据集概述
数据集简介
CV3-Eval是为解决真实世界语音合成场景中的多样性和泛化性挑战而设计的零样本语音合成基准测试集。数据集基于Common Voice、FLUERS、EmoBox和网络爬取的真实音频数据构建,涵盖广泛的语言和方言、领域和环境、情感和风格。
数据集组成
- 客观评估子集:
- 多语言语音克隆
- 跨语言语音克隆
- 情感克隆
- 主观评估子集:
- 表达性语音克隆
- 表达性语音延续
- 中文口音语音克隆
评估指标
- 内容一致性:
- 使用Whisper-large V3(英语)和Paraformer(中文)计算字符错误率(CER)或词错误率(WER)
- 说话人相似度:
- 使用ERes2Net说话人验证模型提取说话人嵌入,计算与参考语音的余弦相似度
- 音频质量:
- 使用DNSMOS网络评分,该分数与人类听觉感知高度相关
使用要求
bash conda create -n cv3-eval python=3.10 conda activate cv3-eval pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124 pip install -r requirements.txt
评估代码
bash
WER、说话人相似度和DNSMOS评估
bash run_infer_cv3_eval.sh
情感评分
bash run_infer_cv3_eval_emo.sh
引用信息
@article{du2025cosyvoice, title={CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training}, author={Du, Zhihao and Gao, Changfeng and Wang, Yuxuan and Yu, Fan and Zhao, Tianyu and Wang, Hao and Lv, Xiang and Wang, Hui and Shi, Xian and An, Keyu and others}, journal={arXiv preprint arXiv:2505.17589}, year={2025} }




