CV3-Eval

github2025-06-09 更新2025-06-10 收录

下载链接：

https://github.com/FunAudioLLM/CV3-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

CV3-Eval是一个用于零样本语音合成的基准数据集，旨在解决真实世界语音合成场景中的多样性和泛化性挑战。该数据集基于Common Voice、FLUERS、EmoBox和网络爬取的真实世界音频数据构建，涵盖了广泛的语言和方言、领域和环境、情感和风格。数据集包括客观评估和主观评估的子集，客观评估子集进一步分为多语言语音克隆、跨语言语音克隆和情感克隆三个子集，主观评估子集则包括表达性语音克隆、表达性语音延续和中文口音语音克隆。

CV3-Eval is a benchmark dataset for zero-shot speech synthesis, aiming to address the challenges of diversity and generalization in real-world speech synthesis scenarios. It is constructed based on real-world audio data crawled from the web, Common Voice, FLUERS, and EmoBox, covering a wide range of languages and dialects, domains and environments, as well as emotions and styles. The dataset includes subsets for objective evaluation and subjective evaluation. The objective evaluation subset is further divided into three sub-subsets: multilingual speech cloning, cross-lingual speech cloning, and emotion cloning. The subjective evaluation subset covers expressive speech cloning, expressive speech continuation, and Chinese accent speech cloning.

创建时间：

2025-06-05

原始信息汇总

CV3-Eval数据集概述

数据集简介

CV3-Eval是为解决真实世界语音合成场景中的多样性和泛化性挑战而设计的零样本语音合成基准测试集。数据集基于Common Voice、FLUERS、EmoBox和网络爬取的真实音频数据构建，涵盖广泛的语言和方言、领域和环境、情感和风格。

数据集组成

客观评估子集：
- 多语言语音克隆
- 跨语言语音克隆
- 情感克隆
主观评估子集：
- 表达性语音克隆
- 表达性语音延续
- 中文口音语音克隆

评估指标

内容一致性：
- 使用Whisper-large V3（英语）和Paraformer（中文）计算字符错误率(CER)或词错误率(WER)
说话人相似度：
- 使用ERes2Net说话人验证模型提取说话人嵌入，计算与参考语音的余弦相似度
音频质量：
- 使用DNSMOS网络评分，该分数与人类听觉感知高度相关

使用要求

bash conda create -n cv3-eval python=3.10 conda activate cv3-eval pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124 pip install -r requirements.txt

评估代码

bash

WER、说话人相似度和DNSMOS评估

bash run_infer_cv3_eval.sh

情感评分

bash run_infer_cv3_eval_emo.sh

引用信息

@article{du2025cosyvoice, title={CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training}, author={Du, Zhihao and Gao, Changfeng and Wang, Yuxuan and Yu, Fan and Zhao, Tianyu and Wang, Hao and Lv, Xiang and Wang, Hui and Shi, Xian and An, Keyu and others}, journal={arXiv preprint arXiv:2505.17589}, year={2025} }

搜集汇总

数据集介绍

构建方式

在语音合成领域追求多样性和泛化能力的背景下，CV3-Eval基准数据集通过整合Common Voice、FLUERS、EmoBox及网络爬取的真实语音数据，构建了一个覆盖多语言方言、多领域环境和多情感风格的零样本语音合成评估体系。该数据集采用模块化设计，分别针对客观评估和主观评估需求构建子集，客观评估子集细分为多语言语音克隆、跨语言语音克隆和情感克隆三个维度，主观评估则聚焦于表现力语音克隆、表现力语音延续及中文口音克隆等场景。

特点

CV3-Eval的突出特点体现在其真实场景覆盖的广度和深度，数据集囊括了从日常对话到情感化表达的连续语音谱系，特别强调对非受限环境下语音特征的捕捉。评估体系设计具有多维量化特性，通过内容一致性（CER/WER）、说话人相似度（余弦相似度）和音频质量（DNSMOS）三大核心指标，结合Whisper-large V3、ERes2Net等先进模型，实现了对合成语音的全方位量化评估。多语言支持能力使其成为目前最具地理和语言多样性的语音合成基准之一。

使用方法

使用者需配置Python 3.10环境并安装指定版本的PyTorch框架，通过提供的bash脚本即可启动全流程评估。客观指标评估通过run_infer_cv3_eval.sh脚本实现语音识别准确率、说话人相似度和音质评分的一体化计算，情感评分则需单独执行run_infer_cv3_eval_emo.sh脚本。评估系统采用模块化设计，允许研究者根据需求灵活选择评估维度，所有指标计算均基于预训练模型自动完成，确保结果的可重复性和可比性。数据集配套的评估代码库完整复现了论文中的实验流程，为后续研究提供了标准化比对基准。

背景与挑战

背景概述

CV3-Eval数据集由Cosyvoice 3团队于2025年发布，旨在解决零样本语音合成在多样化真实场景中的泛化性挑战。该数据集整合了Common Voice、FLUERS、EmoBox及网络爬取的真实音频数据，覆盖多语言、多方言、多领域及多情感风格，为语音合成领域提供了全面的评估基准。其核心研究问题聚焦于提升语音合成系统在复杂环境下的表现力与适应性，推动了语音生成技术向真实场景应用的迈进。

当前挑战

CV3-Eval数据集面临的挑战主要体现在两方面：其一，语音合成领域本身需应对多语言、多情感及跨语言克隆的复杂性，要求模型在内容一致性、说话人相似性和音频质量上达到更高标准；其二，数据集构建过程中需处理来自不同来源的音频数据在格式、质量及标注上的异构性，确保评估基准的可靠性与代表性。此外，主观评估环节的设计也需克服人类听觉感知与自动化评分之间的差异问题。

常用场景

经典使用场景

在语音合成领域，CV3-Eval数据集为解决零样本语音合成中的多样性和泛化性问题提供了重要基准。该数据集整合了来自Common Voice、FLUERS、EmoBox及网络爬取的真实语音数据，覆盖多语言、多方言、多情感风格等复杂场景，为研究者提供了丰富的实验素材。其经典使用场景包括多语言语音克隆、跨语言语音克隆以及情感语音克隆，这些场景充分验证了模型在真实环境下的表现能力。

实际应用

在实际应用中，CV3-Eval数据集为语音合成技术的商业化落地提供了重要支持。例如，在智能客服系统中，该数据集可用于训练具有多语言支持和情感表达能力的语音合成模型，提升用户体验。在教育领域，基于该数据集开发的语音克隆技术能够为语言学习者提供个性化的发音示范。此外，在娱乐产业中，情感语音克隆技术可应用于虚拟偶像的声音生成，增强互动性和真实感。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集