CosyVoice 2|语音合成数据集|多语言数据集
收藏CosyVoice 数据集概述
版本信息
- CosyVoice 2.0:
- CosyVoice 1.0:
主要特点
多语言支持
- 支持语言: 中文、英语、日语、韩语、中国方言(粤语、四川话、上海话、天津话、武汉话等)
- 跨语言与混合语言: 支持跨语言和代码转换场景的零样本语音克隆。
超低延迟
- 双向流支持: 集成离线和流式建模技术。
- 快速首包合成: 在保持高质量音频输出的同时,延迟低至150ms。
高准确性
- 发音改进: 与CosyVoice 1.0相比,发音错误减少30%至50%。
- 基准测试成绩: 在Seed-TTS评估集的硬测试集上达到最低的字符错误率。
强稳定性
- 音色一致性: 确保零样本和跨语言语音合成的可靠语音一致性。
- 跨语言合成: 与版本1.0相比有显著改进。
自然体验
- 韵律和音质增强: 合成音频的对齐得到改善,MOS评估分数从5.4提升至5.53。
- 情感和方言灵活性: 支持更细粒度的情感控制和口音调整。
安装与使用
安装步骤
-
克隆仓库: sh git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git cd CosyVoice git submodule update --init --recursive
-
创建Conda环境: sh conda create -n cosyvoice python=3.10 conda activate cosyvoice conda install -y -c conda-forge pynini==2.1.5 pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
模型下载
- 推荐下载预训练模型: python from modelscope import snapshot_download snapshot_download(iic/CosyVoice2-0.5B, local_dir=pretrained_models/CosyVoice2-0.5B) snapshot_download(iic/CosyVoice-300M, local_dir=pretrained_models/CosyVoice-300M) snapshot_download(iic/CosyVoice-300M-25Hz, local_dir=pretrained_models/CosyVoice-300M-25Hz) snapshot_download(iic/CosyVoice-300M-SFT, local_dir=pretrained_models/CosyVoice-300M-SFT) snapshot_download(iic/CosyVoice-300M-Instruct, local_dir=pretrained_models/CosyVoice-300M-Instruct) snapshot_download(iic/CosyVoice-ttsfrd, local_dir=pretrained_models/CosyVoice-ttsfrd)
基本使用
-
CosyVoice2 使用: python cosyvoice = CosyVoice2(pretrained_models/CosyVoice2-0.5B, load_jit=True, load_onnx=False, load_trt=False)
-
CosyVoice 使用: python cosyvoice = CosyVoice(pretrained_models/CosyVoice-300M-SFT, load_jit=True, load_onnx=False, fp16=True)
讨论与交流
- Github Issues: 讨论
致谢
- 代码参考自 FunASR、FunCodec、Matcha-TTS、AcademiCodec、WeNet。
免责声明
- 本内容仅供学术用途,旨在展示技术能力。部分示例来源于网络,如涉及侵权,请联系我们删除。

- 1CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models阿里巴巴集团 · 2024年
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
开源PHM数据集
本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。
github 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录