viVoice
收藏viVoice 数据集概述
数据集简介
viVoice 是首个公开的大规模越南语语音数据集,旨在推动越南语文本到语音(TTS)系统的研究。该数据集包含超过 1000 小时的高质量、经过清理的音频数据,音频来源于 186 个 YouTube 频道,并配有相应的转录文本。viVoice 数据集解决了越南语 TTS 数据稀缺的问题,为语音合成模型的开发和优化提供了重要资源。
数据集结构
数据集的结构如下: json { channel: @channelID, text: Xin chào, chúc bạn một ngày tốt lành., audio: { path: audio_xx.xx_xx.xx.wav, // 无实际用途 array: array([ 0., 0., 0., ..., -0.00054932, -0.00054932, -0.00057983]), sampling_rate: 24000 } }
数据访问与使用
- 该数据集仅用于研究目的。访问请求必须通过学校、机构或工作邮箱提交,普通邮箱的请求将被拒绝。
- 数据集可通过以下链接访问:
关键特征与统计
- 所有音频均经过降噪处理,去除了背景音乐。
- 音频在句子的开头和结尾进行了干净切割,避免了不必要的静音或中断。
- 数据来源于 186 个 YouTube 频道,包含频道 ID 以保持透明度。
- 样本数量:887,772
- 总时长:1,017 小时
- 采样率:24 kHz
- 数据分割:1 个(仅训练集)
- 数据大小:169 GB
- 说话者性别分布:61.3% ± 3.02% 男性(基于 1,000 个样本的 95% 置信区间估计)
- 转录错误率:1.8% ± 0.82%(基于 1,000 个样本的 95% 置信区间估计)
数据创建流程
-
数据获取与预处理:
- 从 186 个越南语 YouTube 频道下载音频数据。
- 使用 UVR-MDX-Net-Voc_FT 模型提取人声并去除背景音乐和噪音。
- 使用 DeepFilterNet3 进行高级降噪处理,同时保持语音质量。
- 将音频转换为 24kHz、16-bit PCM、单声道格式。
-
获取转录与时间戳并分割音频:
- 使用 Whisper Large V3 模型生成转录和时间戳。
- 开发基于规则的方法将碎片化的转录合并为连贯的句子。
- 根据时间戳分割长音频文件。
- 使用 Silero VAD 识别并修剪开头和结尾的静音部分。
-
后处理与质量保证:
- 应用严格的过滤标准,去除转录过长、静音过长或语速过快的样本。
- 去除重复样本。
- 使用 PhoWhisper-base 进行二次转录以进一步过滤。
- 使用自定义 Streamlit 应用程序进行手动质量检查。
已知限制与未来工作建议
- 文本未进行标准化,可能不适合某些需要文本与音频一一映射的 TTS 或 STT 模型。
- 音频波形未进行标准化,可能导致失真、剪切、音量过大或过小等问题。
- 数据集不平衡,某些频道的样本数量远多于其他频道。
致谢
感谢团队成员、导师、家人和朋友的支持,以及使该项目成为可能的技术。
引用
bibtex @misc{viVoice, author = {Thinh Le Phuoc Gia, Tuan Pham Minh, Hung Nguyen Quoc, Trung Nguyen Quoc, Vinh Truong Hoang}, title = {viVoice: Enabling Vietnamese Multi-Speaker Speech Synthesis}, url = {https://github.com/thinhlpg/viVoice}, year = {2024} }
联系方式
- Facebook: https://fb.com/thinhlpg/
- GitHub: https://github.com/thinhlpg
- Email: thinhlpg@gmail.com




