five

CosyVoice 2|语音合成数据集|多语言数据集

收藏
arXiv2024-12-13 更新2024-12-17 收录
语音合成
多语言
下载链接:
https://github.com/FunAudioLLM/CosyVoice
下载链接
链接失效反馈
资源简介:
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
提供机构:
阿里巴巴集团
创建时间:
2024-12-13
原始信息汇总

CosyVoice 数据集概述

版本信息

主要特点

多语言支持

  • 支持语言: 中文、英语、日语、韩语、中国方言(粤语、四川话、上海话、天津话、武汉话等)
  • 跨语言与混合语言: 支持跨语言和代码转换场景的零样本语音克隆。

超低延迟

  • 双向流支持: 集成离线和流式建模技术。
  • 快速首包合成: 在保持高质量音频输出的同时,延迟低至150ms。

高准确性

  • 发音改进: 与CosyVoice 1.0相比,发音错误减少30%至50%。
  • 基准测试成绩: 在Seed-TTS评估集的硬测试集上达到最低的字符错误率。

强稳定性

  • 音色一致性: 确保零样本和跨语言语音合成的可靠语音一致性。
  • 跨语言合成: 与版本1.0相比有显著改进。

自然体验

  • 韵律和音质增强: 合成音频的对齐得到改善,MOS评估分数从5.4提升至5.53。
  • 情感和方言灵活性: 支持更细粒度的情感控制和口音调整。

安装与使用

安装步骤

  • 克隆仓库: sh git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git cd CosyVoice git submodule update --init --recursive

  • 创建Conda环境: sh conda create -n cosyvoice python=3.10 conda activate cosyvoice conda install -y -c conda-forge pynini==2.1.5 pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

模型下载

  • 推荐下载预训练模型: python from modelscope import snapshot_download snapshot_download(iic/CosyVoice2-0.5B, local_dir=pretrained_models/CosyVoice2-0.5B) snapshot_download(iic/CosyVoice-300M, local_dir=pretrained_models/CosyVoice-300M) snapshot_download(iic/CosyVoice-300M-25Hz, local_dir=pretrained_models/CosyVoice-300M-25Hz) snapshot_download(iic/CosyVoice-300M-SFT, local_dir=pretrained_models/CosyVoice-300M-SFT) snapshot_download(iic/CosyVoice-300M-Instruct, local_dir=pretrained_models/CosyVoice-300M-Instruct) snapshot_download(iic/CosyVoice-ttsfrd, local_dir=pretrained_models/CosyVoice-ttsfrd)

基本使用

  • CosyVoice2 使用: python cosyvoice = CosyVoice2(pretrained_models/CosyVoice2-0.5B, load_jit=True, load_onnx=False, load_trt=False)

  • CosyVoice 使用: python cosyvoice = CosyVoice(pretrained_models/CosyVoice-300M-SFT, load_jit=True, load_onnx=False, fp16=True)

讨论与交流

致谢

免责声明

  • 本内容仅供学术用途,旨在展示技术能力。部分示例来源于网络,如涉及侵权,请联系我们删除。
AI搜集汇总
数据集介绍
main_image_url
构建方式
CosyVoice 2 数据集的构建基于大规模多语言数据集,通过引入有限标量量化(Finite Scalar Quantization, FSQ)技术,改进了语音令牌的码本利用率。数据集的构建过程中,使用了预训练的大型语言模型(LLM)作为文本到语音语言模型的骨干,简化了模型架构,并开发了块级因果流匹配模型,以支持流式和非流式合成的统一框架。此外,数据集还通过监督语义语音令牌器和文本令牌器,确保了语音生成过程中的语义和声学信息的分离,从而实现了高质量的语音合成。
特点
CosyVoice 2 数据集的主要特点在于其支持流式和非流式合成的统一框架,能够在单一模型中实现两种合成模式的无损切换。此外,数据集通过有限标量量化技术,显著提升了码本利用率,捕捉了更多的语音信息。数据集还集成了指令生成能力,支持情感、口音、角色风格等细粒度控制,使得语音合成更加多样化和生动。
使用方法
CosyVoice 2 数据集可用于多种语音合成任务,包括流式和非流式合成。用户可以通过预训练的文本到语音语言模型生成语音令牌,并结合块级因果流匹配模型生成高质量的语音波形。数据集还支持指令生成,用户可以通过输入自然语言指令或细粒度指令,控制语音的情感、语速、口音等特征。此外,数据集还支持多说话人微调,用户可以通过微调模型生成特定说话人的语音,进一步提升合成语音的相似度和自然度。
背景与挑战
背景概述
CosyVoice 2是由阿里巴巴集团的研究团队开发的多语言流式语音合成模型,其核心研究问题是如何在保持高自然度和内容一致性的同时,实现低延迟的流式语音合成。该模型基于大规模多语言数据集进行训练,结合了有限标量量化(FSQ)、预训练的大型语言模型(LLM)以及分块感知的因果流匹配模型,旨在统一流式和非流式合成,提供近乎无损的流式合成质量。CosyVoice 2的提出标志着在零样本语音合成领域的重要进展,尤其是在多模态大语言模型背景下,流式合成的响应延迟和实时性对交互体验至关重要。
当前挑战
CosyVoice 2在构建过程中面临多项挑战。首先,如何在流式合成中保持与非流式合成相同的合成质量,尤其是在处理复杂语境和长文本时,是一个关键问题。其次,多语言支持的挑战在于不同语言之间的字符集重叠可能导致合成质量下降,尤其是中日韩语言的处理。此外,模型在处理情感、口音等细粒度控制时,如何确保指令的准确性和自然性也是一个难点。最后,流式合成中的低延迟要求对模型的计算效率提出了更高的要求,如何在保证合成质量的同时优化计算资源的使用,是CosyVoice 2需要解决的技术难题。
常用场景
经典使用场景
CosyVoice 2 数据集的经典使用场景主要集中在多语言零样本语音合成(Zero-Shot TTS)任务中。该数据集通过结合大规模语言模型(LLMs)和流式语音合成技术,能够在不依赖特定说话人数据的情况下,生成高质量、自然流畅的语音。其核心优势在于支持流式合成,能够在实时交互场景中实现低延迟的语音生成,适用于语音助手、在线聊天、虚拟角色对话等应用场景。
衍生相关工作
CosyVoice 2 数据集的发布催生了一系列相关研究工作,尤其是在多语言零样本语音合成和流式合成领域。基于该数据集,研究者们进一步探索了如何通过预训练语言模型提升语音合成的自然度和多样性,并提出了多种改进的流式合成算法。此外,CosyVoice 2 的成功也激发了对语音合成中情感控制、语音风格迁移等方向的研究,推动了语音合成技术的整体进步。
数据集最近研究
最新研究方向
近年来,神经文本到语音(TTS)合成技术取得了显著进展,尤其是在多模态大语言模型(LLMs)的推动下,语音合成的实时性和响应延迟成为提升用户体验的关键因素。CosyVoice 2 数据集的研究聚焦于流式语音合成,通过引入有限标量量化(FSQ)技术,优化了语音令牌的码本利用率,并简化了文本到语音语言模型的架构,使其能够直接利用预训练的LLMs作为骨干。此外,CosyVoice 2 还开发了块级因果流匹配模型,支持流式和非流式合成的统一框架,实现了近乎无损的流式合成质量。该数据集的研究不仅提升了语音合成的自然度和内容一致性,还通过支持情感、口音、角色风格等细粒度控制,增强了语音生成的多样性和可控性。CosyVoice 2 的成功为未来语音合成技术的规模化应用和交互式体验提供了重要参考。
相关研究论文
  • 1
    CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models阿里巴巴集团 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录