viVoice

github2024-07-01 更新2024-10-12 收录

下载链接：

https://github.com/Mr-Jack-Tung/viVoice

下载链接

链接失效反馈

官方服务：

资源简介：

viVoice是第一个公开可用的大规模越南语音数据集，旨在推动越南文本到语音（TTS）系统的研究。该数据集包含超过1000小时的高质量、清理过的音频，来自186个YouTube频道，并附有相应的转录文本。这个数据集解决了越南TTS数据的严重稀缺问题，为语音合成模型的开发和改进提供了大量资源。

viVoice is the first publicly available large-scale Vietnamese speech dataset, designed to advance research in Vietnamese text-to-speech (TTS) systems. The dataset comprises over 1,000 hours of high-quality, cleaned audio from 186 YouTube channels, accompanied by corresponding transcriptions. This dataset addresses the critical shortage of Vietnamese TTS data, providing a substantial resource for the development and enhancement of speech synthesis models.

创建时间：

2024-09-14

原始信息汇总

viVoice 数据集概述

数据集简介

viVoice 是首个公开的大规模越南语语音数据集，旨在推动越南语文本到语音（TTS）系统的研究。该数据集包含超过 1000 小时的高质量、经过清理的音频数据，音频来源于 186 个 YouTube 频道，并配有相应的转录文本。viVoice 数据集解决了越南语 TTS 数据稀缺的问题，为语音合成模型的开发和优化提供了重要资源。

数据集结构

数据集的结构如下： json { channel: @channelID, text: Xin chào, chúc bạn một ngày tốt lành., audio: { path: audio_xx.xx_xx.xx.wav, // 无实际用途 array: array([ 0., 0., 0., ..., -0.00054932, -0.00054932, -0.00057983]), sampling_rate: 24000 } }

数据访问与使用

该数据集仅用于研究目的。访问请求必须通过学校、机构或工作邮箱提交，普通邮箱的请求将被拒绝。
数据集可通过以下链接访问：
- viVoice 数据集
- viVoice Distil 数据集

关键特征与统计

所有音频均经过降噪处理，去除了背景音乐。
音频在句子的开头和结尾进行了干净切割，避免了不必要的静音或中断。
数据来源于 186 个 YouTube 频道，包含频道 ID 以保持透明度。
样本数量：887,772
总时长：1,017 小时
采样率：24 kHz
数据分割：1 个（仅训练集）
数据大小：169 GB
说话者性别分布：61.3% ± 3.02% 男性（基于 1,000 个样本的 95% 置信区间估计）
转录错误率：1.8% ± 0.82%（基于 1,000 个样本的 95% 置信区间估计）

数据创建流程

数据获取与预处理：
- 从 186 个越南语 YouTube 频道下载音频数据。
- 使用 UVR-MDX-Net-Voc_FT 模型提取人声并去除背景音乐和噪音。
- 使用 DeepFilterNet3 进行高级降噪处理，同时保持语音质量。
- 将音频转换为 24kHz、16-bit PCM、单声道格式。
获取转录与时间戳并分割音频：
- 使用 Whisper Large V3 模型生成转录和时间戳。
- 开发基于规则的方法将碎片化的转录合并为连贯的句子。
- 根据时间戳分割长音频文件。
- 使用 Silero VAD 识别并修剪开头和结尾的静音部分。
后处理与质量保证：
- 应用严格的过滤标准，去除转录过长、静音过长或语速过快的样本。
- 去除重复样本。
- 使用 PhoWhisper-base 进行二次转录以进一步过滤。
- 使用自定义 Streamlit 应用程序进行手动质量检查。

已知限制与未来工作建议

文本未进行标准化，可能不适合某些需要文本与音频一一映射的 TTS 或 STT 模型。
音频波形未进行标准化，可能导致失真、剪切、音量过大或过小等问题。
数据集不平衡，某些频道的样本数量远多于其他频道。

致谢

感谢团队成员、导师、家人和朋友的支持，以及使该项目成为可能的技术。

引用

bibtex @misc{viVoice, author = {Thinh Le Phuoc Gia, Tuan Pham Minh, Hung Nguyen Quoc, Trung Nguyen Quoc, Vinh Truong Hoang}, title = {viVoice: Enabling Vietnamese Multi-Speaker Speech Synthesis}, url = {https://github.com/thinhlpg/viVoice}, year = {2024} }

联系方式

搜集汇总

数据集介绍

构建方式

viVoice数据集的构建过程分为三个主要阶段。首先，从186个越南语YouTube频道下载音频数据，并使用UVR-MDX-Net-Voc_FT模型提取人声并去除背景音乐和噪音。接着，采用DeepFilterNet3进行高级噪音去除，同时保持语音质量。随后，音频被转换为24kHz、16位PCM、单声道格式。其次，利用Whisper Large V3模型生成转录和时间戳，并通过规则方法将碎片化转录合并为连贯句子。长音频文件根据时间戳进行分割，并使用Silero VAD识别和修剪前导/尾随静音。最后，通过严格的过滤标准去除异常样本，并进行二次转录以进一步筛选。手动质量检查通过自定义Streamlit应用程序进行，确保最终错误率低于5%。

特点

viVoice数据集具有多个显著特点。首先，所有音频均经过噪音和音乐的清理，确保高质量的语音数据。其次，音频在句子的开始和结束处进行干净切割，避免不必要的静音或干扰，同时不切割单词中间部分。此外，数据集包含186个YouTube频道的音频，频道ID透明公开。数据集总时长为1,017小时，采样率为24kHz，大小为169GB。性别分布方面，男性发言者占比61.3% ± 3.02%。转录错误率为1.8% ± 0.82%，仅计算单词数量错误的句子。

使用方法

viVoice数据集主要用于越南语多说话者语音合成研究。用户需通过学校、机构或工作邮箱申请访问权限，个人邮箱请求将被拒绝。数据集可在Hugging Face Hub上获取，访问链接为https://huggingface.co/datasets/capleaf/viVoice和https://huggingface.co/datasets/thinhlpg/vivoice-distil。此外，用户可通过提供的Colab Notebook快速试用数据集，链接为https://colab.research.google.com/drive/15-8kQ0QrZONIjYuKl__m_XyiqBZmoQa6?usp=sharing。数据集结构包括频道ID、文本和音频路径等信息，音频格式为24kHz、16位PCM、单声道。

背景与挑战

背景概述

viVoice数据集是首个公开的大规模越南语语音数据集，旨在推动越南语文本到语音（TTS）系统的研究。该数据集由Thinh Le领导的团队在FPT大学HCMC的毕业论文项目中创建，包含了超过1000小时的高质量、去噪后的音频数据，这些数据来源于186个YouTube频道，并附有相应的转录文本。viVoice数据集的发布填补了越南语TTS数据稀缺的空白，为语音合成模型的开发和优化提供了宝贵的资源。此外，该数据集还催生了viXTTS模型，这是首个公开的越南语TTS模型，具备语音克隆和多语言能力，通过微调XTTS模型实现。

当前挑战

尽管viVoice数据集在越南语TTS领域取得了显著进展，但仍面临若干挑战。首先，数据集的文本未进行标准化处理，这可能不适用于需要文本与音频一一对应映射的TTS或STT模型。其次，音频波形未进行标准化，可能导致失真、剪切、音量过高或过低等问题。此外，数据集在某些频道中存在样本不平衡的问题，这是由于数据收集初期经验不足和一些错误导致的。未来工作可能需要进一步优化数据集的文本标准化和音频质量，以及解决样本不平衡的问题。

常用场景

经典使用场景

viVoice数据集在越南语多说话者语音合成研究中占据重要地位。其经典使用场景包括训练和优化越南语文本到语音（TTS）系统，特别是针对多说话者语音合成的模型。通过提供超过1000小时的高质量音频数据，viVoice数据集为研究人员提供了丰富的资源，以提升语音合成模型的自然度和相似度。此外，该数据集还支持语音克隆和多语言能力的实现，通过微调XTTS模型，进一步推动了越南语TTS技术的发展。

衍生相关工作

viVoice数据集的发布催生了多项相关研究工作。其中，viXTTS模型是最具代表性的衍生成果之一，该模型通过微调XTTS模型，实现了越南语语音合成中的语音克隆和多语言能力。此外，viVoice Distil数据集作为viVoice的简化版本，尝试通过GPT-3.5 API进行数据增强和规范化，虽然结果不尽如人意，但为后续研究提供了宝贵的经验。这些衍生工作不仅丰富了越南语语音合成领域的研究内容，也为未来的技术发展奠定了基础。

数据集最近研究