five

viVoice

收藏
github2024-07-01 更新2024-10-12 收录
下载链接:
https://github.com/Mr-Jack-Tung/viVoice
下载链接
链接失效反馈
官方服务:
资源简介:
viVoice是第一个公开可用的大规模越南语音数据集,旨在推动越南文本到语音(TTS)系统的研究。该数据集包含超过1000小时的高质量、清理过的音频,来自186个YouTube频道,并附有相应的转录文本。这个数据集解决了越南TTS数据的严重稀缺问题,为语音合成模型的开发和改进提供了大量资源。

viVoice is the first publicly available large-scale Vietnamese speech dataset, designed to advance research in Vietnamese text-to-speech (TTS) systems. The dataset comprises over 1,000 hours of high-quality, cleaned audio from 186 YouTube channels, accompanied by corresponding transcriptions. This dataset addresses the critical shortage of Vietnamese TTS data, providing a substantial resource for the development and enhancement of speech synthesis models.
创建时间:
2024-09-14
原始信息汇总

viVoice 数据集概述

数据集简介

viVoice 是首个公开的大规模越南语语音数据集,旨在推动越南语文本到语音(TTS)系统的研究。该数据集包含超过 1000 小时的高质量、经过清理的音频数据,音频来源于 186 个 YouTube 频道,并配有相应的转录文本。viVoice 数据集解决了越南语 TTS 数据稀缺的问题,为语音合成模型的开发和优化提供了重要资源。

数据集结构

数据集的结构如下: json { channel: @channelID, text: Xin chào, chúc bạn một ngày tốt lành., audio: { path: audio_xx.xx_xx.xx.wav, // 无实际用途 array: array([ 0., 0., 0., ..., -0.00054932, -0.00054932, -0.00057983]), sampling_rate: 24000 } }

数据访问与使用

  • 该数据集仅用于研究目的。访问请求必须通过学校、机构或工作邮箱提交,普通邮箱的请求将被拒绝。
  • 数据集可通过以下链接访问:

关键特征与统计

  • 所有音频均经过降噪处理,去除了背景音乐。
  • 音频在句子的开头和结尾进行了干净切割,避免了不必要的静音或中断。
  • 数据来源于 186 个 YouTube 频道,包含频道 ID 以保持透明度。
  • 样本数量:887,772
  • 总时长:1,017 小时
  • 采样率:24 kHz
  • 数据分割:1 个(仅训练集)
  • 数据大小:169 GB
  • 说话者性别分布:61.3% ± 3.02% 男性(基于 1,000 个样本的 95% 置信区间估计)
  • 转录错误率:1.8% ± 0.82%(基于 1,000 个样本的 95% 置信区间估计)

数据创建流程

  1. 数据获取与预处理

    • 从 186 个越南语 YouTube 频道下载音频数据。
    • 使用 UVR-MDX-Net-Voc_FT 模型提取人声并去除背景音乐和噪音。
    • 使用 DeepFilterNet3 进行高级降噪处理,同时保持语音质量。
    • 将音频转换为 24kHz、16-bit PCM、单声道格式。
  2. 获取转录与时间戳并分割音频

    • 使用 Whisper Large V3 模型生成转录和时间戳。
    • 开发基于规则的方法将碎片化的转录合并为连贯的句子。
    • 根据时间戳分割长音频文件。
    • 使用 Silero VAD 识别并修剪开头和结尾的静音部分。
  3. 后处理与质量保证

    • 应用严格的过滤标准,去除转录过长、静音过长或语速过快的样本。
    • 去除重复样本。
    • 使用 PhoWhisper-base 进行二次转录以进一步过滤。
    • 使用自定义 Streamlit 应用程序进行手动质量检查。

已知限制与未来工作建议

  • 文本未进行标准化,可能不适合某些需要文本与音频一一映射的 TTS 或 STT 模型。
  • 音频波形未进行标准化,可能导致失真、剪切、音量过大或过小等问题。
  • 数据集不平衡,某些频道的样本数量远多于其他频道。

致谢

感谢团队成员、导师、家人和朋友的支持,以及使该项目成为可能的技术。

引用

bibtex @misc{viVoice,   author = {Thinh Le Phuoc Gia, Tuan Pham Minh, Hung Nguyen Quoc, Trung Nguyen Quoc, Vinh Truong Hoang},   title = {viVoice: Enabling Vietnamese Multi-Speaker Speech Synthesis},   url = {https://github.com/thinhlpg/viVoice},   year = {2024} }

联系方式

搜集汇总
数据集介绍
main_image_url
构建方式
viVoice数据集的构建过程分为三个主要阶段。首先,从186个越南语YouTube频道下载音频数据,并使用UVR-MDX-Net-Voc_FT模型提取人声并去除背景音乐和噪音。接着,采用DeepFilterNet3进行高级噪音去除,同时保持语音质量。随后,音频被转换为24kHz、16位PCM、单声道格式。其次,利用Whisper Large V3模型生成转录和时间戳,并通过规则方法将碎片化转录合并为连贯句子。长音频文件根据时间戳进行分割,并使用Silero VAD识别和修剪前导/尾随静音。最后,通过严格的过滤标准去除异常样本,并进行二次转录以进一步筛选。手动质量检查通过自定义Streamlit应用程序进行,确保最终错误率低于5%。
特点
viVoice数据集具有多个显著特点。首先,所有音频均经过噪音和音乐的清理,确保高质量的语音数据。其次,音频在句子的开始和结束处进行干净切割,避免不必要的静音或干扰,同时不切割单词中间部分。此外,数据集包含186个YouTube频道的音频,频道ID透明公开。数据集总时长为1,017小时,采样率为24kHz,大小为169GB。性别分布方面,男性发言者占比61.3% ± 3.02%。转录错误率为1.8% ± 0.82%,仅计算单词数量错误的句子。
使用方法
viVoice数据集主要用于越南语多说话者语音合成研究。用户需通过学校、机构或工作邮箱申请访问权限,个人邮箱请求将被拒绝。数据集可在Hugging Face Hub上获取,访问链接为https://huggingface.co/datasets/capleaf/viVoice和https://huggingface.co/datasets/thinhlpg/vivoice-distil。此外,用户可通过提供的Colab Notebook快速试用数据集,链接为https://colab.research.google.com/drive/15-8kQ0QrZONIjYuKl__m_XyiqBZmoQa6?usp=sharing。数据集结构包括频道ID、文本和音频路径等信息,音频格式为24kHz、16位PCM、单声道。
背景与挑战
背景概述
viVoice数据集是首个公开的大规模越南语语音数据集,旨在推动越南语文本到语音(TTS)系统的研究。该数据集由Thinh Le领导的团队在FPT大学HCMC的毕业论文项目中创建,包含了超过1000小时的高质量、去噪后的音频数据,这些数据来源于186个YouTube频道,并附有相应的转录文本。viVoice数据集的发布填补了越南语TTS数据稀缺的空白,为语音合成模型的开发和优化提供了宝贵的资源。此外,该数据集还催生了viXTTS模型,这是首个公开的越南语TTS模型,具备语音克隆和多语言能力,通过微调XTTS模型实现。
当前挑战
尽管viVoice数据集在越南语TTS领域取得了显著进展,但仍面临若干挑战。首先,数据集的文本未进行标准化处理,这可能不适用于需要文本与音频一一对应映射的TTS或STT模型。其次,音频波形未进行标准化,可能导致失真、剪切、音量过高或过低等问题。此外,数据集在某些频道中存在样本不平衡的问题,这是由于数据收集初期经验不足和一些错误导致的。未来工作可能需要进一步优化数据集的文本标准化和音频质量,以及解决样本不平衡的问题。
常用场景
经典使用场景
viVoice数据集在越南语多说话者语音合成研究中占据重要地位。其经典使用场景包括训练和优化越南语文本到语音(TTS)系统,特别是针对多说话者语音合成的模型。通过提供超过1000小时的高质量音频数据,viVoice数据集为研究人员提供了丰富的资源,以提升语音合成模型的自然度和相似度。此外,该数据集还支持语音克隆和多语言能力的实现,通过微调XTTS模型,进一步推动了越南语TTS技术的发展。
衍生相关工作
viVoice数据集的发布催生了多项相关研究工作。其中,viXTTS模型是最具代表性的衍生成果之一,该模型通过微调XTTS模型,实现了越南语语音合成中的语音克隆和多语言能力。此外,viVoice Distil数据集作为viVoice的简化版本,尝试通过GPT-3.5 API进行数据增强和规范化,虽然结果不尽如人意,但为后续研究提供了宝贵的经验。这些衍生工作不仅丰富了越南语语音合成领域的研究内容,也为未来的技术发展奠定了基础。
数据集最近研究
最新研究方向
在越南语音合成领域,viVoice数据集的最新研究方向主要集中在提升语音合成的自然度和相似度。通过引入viXTTS模型,研究者们展示了如何利用viVoice数据集进行微调,以实现语音克隆和多语言能力。此外,研究还探索了数据集的精简版本viVoice Distil,尝试通过GPT-3.5 API进行文本规范化,以提高数据集的一致性。这些研究不仅填补了越南语TTS数据的空白,还为未来的语音合成技术提供了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作