five

hon9kon9ize/commonvoice_16_1_bert_vits2

收藏
Hugging Face2024-05-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hon9kon9ize/commonvoice_16_1_bert_vits2
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: - cc0-1.0 language: - yue --- # Cantonese Common Voice 16.1 for Bert-VITS2 fine tuning format This dataset contains 14.5 hours of validated speech data in Cantonese (yue and zh-hk) from the Common Voice project, but with some cleansing and fixing of common Chinese characters, and used facebook/seamless-m4t-v2-large to cross check the data. The dataset is in the format required for fine-tuning the [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2). For more detail of cleansing, fixing and filtering, please refer to the [notebook](https://colab.research.google.com/drive/1qpRBtdz0KzyjNUmmJ1CmQ29yaBwrACC3). ## Data format ``` cv_00000.wav|SPK1887|ZH|每次等一兩秒先有內容 cv_00001.wav|SPK1887|ZH|周潤發同任達華喺度鬧緊交呀 cv_00002.wav|SPK1887|ZH|牛脷炸雞真講究 cv_00003.wav|SPK1887|ZH|要買鬼妹同日本妹嘅,唔好買其他,理由下面再講。 cv_00004.wav|SPK1887|ZH|仲話自己開心關你蛋治 cv_00005.wav|SPK1887|ZH|自己玩玩下都無哂癮 cv_00006.wav|SPK1887|ZH|即刻轉身射個三分波呀 ``` ## Citation Please cite the following paper when using this dataset: ``` @inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 } ```

许可证: - CC0 1.0 语言: - 粤语(yue) # 适配Bert-VITS2微调格式的粤语通用语音(Common Voice)16.1数据集 本数据集源自通用语音(Common Voice)项目,收录14.5小时经校验的粤语语音数据(涵盖yue与zh-hk两种语种标识)。数据集已完成数据清洗、通用汉字规范化处理,并通过Facebook/Seamless-M4T-V2-Large模型完成跨校验。本数据集采用适配Bert-VITS2微调任务的标准格式。 有关数据清洗、规范化与筛选的详细说明,请参阅配套notebook:https://colab.research.google.com/drive/1qpRBtdz0KzyjNUmmJ1CmQ29yaBwrACC3。 ## 数据格式 cv_00000.wav|SPK1887|ZH|每次等一兩秒先有內容 cv_00001.wav|SPK1887|ZH|周潤發同任達華喺度鬧緊交呀 cv_00002.wav|SPK1887|ZH|牛脷炸雞真講究 cv_00003.wav|SPK1887|ZH|要買鬼妹同日本妹嘅,唔好買其他,理由下面再講。 cv_00004.wav|SPK1887|ZH|仲話自己開心關你蛋治 cv_00005.wav|SPK1887|ZH|自己玩玩下都無哂癮 cv_00006.wav|SPK1887|ZH|即刻轉身射個三分波呀 ## 引用说明 请在使用本数据集时引用以下文献: @inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }
提供机构:
hon9kon9ize
原始信息汇总

数据集概述

数据集名称

Cantonese Common Voice 16.1 for Bert-VITS2 fine tuning format

数据集内容

  • 语言: 粤语(yue 和 zh-hk)
  • 数据量: 14.5小时经过验证的语音数据
  • 数据处理: 包含对常见中文汉字的清洗和修正,并使用facebook/seamless-m4t-v2-large进行数据交叉检查
  • 用途: 用于fine-tuning Bert-VITS2

数据格式

  • 数据以.wav文件形式存储,每条记录包含音频文件名、说话人ID、语言标识和语音内容文本。

引用信息

  • 引用文献:

    @inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }

搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成技术蓬勃发展的背景下,hon9kon9ize/commonvoice_16_1_bert_vits2数据集的构建体现了对高质量粤语语音数据的精细化追求。该数据集源自Common Voice项目中的粤语(yue及zh-hk)已验证语音,经过精心筛选与清洗,保留了约14.5小时的纯净音频。构建过程中,不仅修正了常见中文字符的标注问题,还引入了facebook/seamless-m4t-v2-large模型进行交叉验证,以确保文本与语音内容的高度一致性。最终,数据被整理为适配Bert-VITS2模型微调的特定格式,为后续研究奠定了坚实基础。
特点
该数据集的核心特点在于其高度的专业性与针对性。作为专为Bert-VITS2模型微调设计的粤语语音库,它提供了标准化的数据接口,每条样本均包含音频文件路径、说话人标识、语言代码及对应文本,极大简化了模型训练的数据预处理流程。数据集经过严格的质量控制,通过自动化与人工结合的方式清洗了原始语料中的噪声与错误,确保了语音内容的清晰度与文本标注的准确性。其聚焦于粤语这一特定方言,为语音合成领域的方言研究提供了宝贵的资源。
使用方法
在语音合成模型训练的应用场景中,该数据集的使用方法清晰而高效。研究人员可直接利用其提供的结构化数据格式,将音频文件与对应文本及元数据导入Bert-VITS2等语音合成框架进行微调训练。数据集的标准化设计省去了复杂的格式转换步骤,用户可专注于模型架构与参数的优化。通过调用数据集中已对齐的音频-文本对,能够有效训练模型学习粤语的音素、韵律及声学特征,从而生成自然流畅的粤语合成语音,推动方言语音技术的前沿发展。
背景与挑战
背景概述
随着语音合成技术的飞速发展,高质量、多语言的语音数据集成为推动该领域进步的关键。Common Voice项目由Mozilla基金会于2020年发起,旨在构建一个大规模、开源的语音语料库,以支持语音识别与合成研究。本数据集基于Common Voice的粤语子集,由hon9kon9ize等研究人员于2024年精心整理,专门适配Bert-VITS2模型的微调需求。其核心研究问题在于解决低资源语言——粤语的语音合成数据稀缺性,通过数据清洗与校验,提升了语料的准确性与可用性,为方言语音技术的发展提供了重要支撑。
当前挑战
在语音合成领域,粤语作为低资源语言,面临语音数据匮乏、标注一致性差等固有挑战。本数据集针对这些问题,通过字符校正与跨模型验证,力求提升语料质量。然而,构建过程中仍存在多重困难:一是粤语书写变体繁多,字符标准化处理复杂;二是语音与文本对齐需依赖外部模型,可能引入误差;三是数据规模有限,仅14.5小时的验证语音,难以覆盖粤语丰富的声调与口语变体。这些挑战制约了模型在真实场景中的泛化能力,亟待更全面的数据扩充与质量控制。
常用场景
经典使用场景
在语音合成技术领域,粤语作为全球使用人口众多的方言之一,其语音资源的稀缺性长期制约着相关模型的发展。该数据集专为Bert-VITS2模型的微调而设计,通过提供经过清洗和校验的粤语语音-文本配对数据,为研究人员构建高质量、自然流畅的粤语语音合成系统奠定了坚实基础。其经典使用场景集中于语音合成模型的训练与优化,能够有效提升合成语音在韵律、音色和自然度方面的表现。
实际应用
超越纯学术探索,该数据集孕育的技术在现实世界中具有广泛的应用潜力。基于其训练的粤语语音合成模型,可被集成到智能客服、有声读物制作、导航播报、虚拟助手及各类娱乐媒体产品中,为粤语使用者提供更亲切、更精准的语音交互体验。特别是在教育、文化传承和公共服务领域,高质量的粤语语音输出能够有效弥合数字鸿沟,增强信息服务的包容性与可达性。
衍生相关工作
围绕该数据集及其构建范式,已催生了一系列富有影响力的后续研究与实践。这些工作不仅局限于对Bert-VITS2等特定架构的深入优化,更延伸至多语言语音合成模型的适配、低资源语音数据增强方法的创新,以及语音合成技术在特定垂直领域(如戏曲、方言保护)的应用探索。这些衍生工作共同丰富了语音技术生态,并为处理其他方言或小语种提供了可复制的技术路径与宝贵经验。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作