five

VoiceBank-2023

收藏
github2023-08-30 更新2024-05-31 收录
下载链接:
https://github.com/VoiceBank-NTPU-TW/VoiceBank-2023
下载链接
链接失效反馈
官方服务:
资源简介:
VoiceBank-2023是一个专门为构建个性化普通话文本到语音(TTS)系统设计的语音语料库。该语料库包含两大部分,共有八个子语料库,旨在丰富通信功能并支持个性化TTS系统的开发。

VoiceBank-2023 is a specialized speech corpus designed for the development of personalized Mandarin text-to-speech (TTS) systems. The corpus comprises two main sections, encompassing a total of eight sub-corpora, aimed at enhancing communication capabilities and supporting the advancement of personalized TTS systems.
创建时间:
2023-08-25
原始信息汇总

数据集概述

数据集名称

语言

  • 语言: 主要为台湾普通话

数据集设计

  • 设计目的: 用于构建个性化普通话文本到语音(TTS)系统
  • 组成部分:
    • Part 1 - VoiceBanking (子语料库1和2):
      • 子语料库1: 覆盖所有普通话声母和韵母类型
      • 子语料库2: 扩大语音库样本量
    • Part 2 - Common Phrases (子语料库3至8):
      • 子语料库3至8: 包含1至≥6个字符的短语,以丰富交流功能

数据集统计

  • 发言人数量: 111
    • 性别分布: 47名女性 + 64名男性
    • 类型分布: 39名ALS患者 + 63名语音捐赠者 + 9名未知
  • 语音数量: 12,875
    • Part 1: 7,625
    • Part 2: 5,250
  • 总时长: 29.78小时
    • Part 1: 28.18小时
    • Part 2: 1.60小时
  • 音节数量: 360,586
    • Part 1: 342,486
    • Part 2: 18,100

数据集规格

  • 文本/提示材料:
    • Part 1: 133个短段落
    • Part 2: 556个常用短语
  • 说话风格:
    • Part 1: 朗读风格
    • Part 2: 自然口语风格
  • 用途:
    • 个性化TTS
    • 评估构音障碍、声音质量(抖动/闪烁)和录音声音质量
  • 发言人详细信息:
    • 性别分布: 47名女性 + 64名男性
    • 类型分布: 39名ALS患者 + 63名语音捐赠者 + 9名未知
    • 构音障碍程度: 86名(程度1:高语音可理解性)+ 11名(程度2)+ 12名(程度3)+ 2名(程度4:低语音可理解性)

技术规格

  • 波形编码: 线性PCM,48kHz采样率,16位分辨率,单声道
  • 麦克风/录音环境: 主要使用USB质量麦克风/主要在家或办公室
  • 每个语音文件:
    • .TextGrid: 语音学(声母/韵母)、音节(声调)和单词(词性及标点符号)的时间对齐
    • .txt: UTF-8编码的原始文本文件
    • .wav: WAVE格式文件

样本

  • 提供四个不同构音障碍程度的语音样本文件,通过信号处理方法调整音高和速度,以去除发言人身份同时保持语音自然性。
搜集汇总
数据集介绍
main_image_url
构建方式
VoiceBank-2023数据集的构建旨在为个性化普通话文本转语音(TTS)系统提供支持,特别是针对语音障碍者。该数据集由两部分组成,共包含八个子语料库。第一部分为语音银行,涵盖所有普通话声母和韵母类型,并扩大了样本量;第二部分为常用短语,包含1至6个字符的短语,以丰富交流功能。数据采集涉及111名说话者,包括39名ALS患者、63名语音捐赠者和9名未知身份者,共录得12,875条语音,总时长达29.78小时。
特点
VoiceBank-2023数据集的特点在于其多样性和针对性。数据集不仅包含大量普通话语音样本,还特别关注语音障碍者的需求,涵盖了不同性别、年龄和语音障碍程度的说话者。语音样本以线性PCM格式存储,采样率为48kHz,分辨率为16位,单声道录制。此外,数据集提供了详细的语音对齐信息,包括音素、音节和词汇的时间对齐标注,为语音分析和模型训练提供了丰富的基础数据。
使用方法
VoiceBank-2023数据集的使用方法主要围绕个性化TTS系统的构建和语音障碍评估展开。研究人员可以通过分析数据集中的语音样本,训练和优化TTS模型,特别是针对语音障碍者的个性化需求。此外,数据集还可用于评估语音质量(如抖动和闪烁)和录音质量,为语音病理学研究提供支持。数据集可通过非商业用途申请获取,需联系相关作者获取访问权限。
背景与挑战
背景概述
VoiceBank-2023是由台湾国立台北大学语音与多媒体信号处理实验室(SMSPLab)与AcoustInTek公司及国立阳明交通大学合作开发的多说话者普通话语音语料库,旨在构建个性化的文本到语音(TTS)系统,特别是为语言障碍患者提供支持。该数据集于2023年8月发布,涵盖了111名说话者的12,875条语音样本,总时长达29.78小时。数据集分为两部分:第一部分专注于语音银行,涵盖所有普通话声母和韵母类型;第二部分则包含常见短语,以丰富语音的交际功能。VoiceBank-2023的发布为个性化TTS系统的开发提供了重要的数据支持,尤其在语言障碍患者的语音合成领域具有深远影响。
当前挑战
VoiceBank-2023在构建过程中面临多重挑战。首先,数据集的多样性要求涵盖不同性别、年龄及语言障碍程度的说话者,这对数据采集的广度和深度提出了较高要求。其次,语音样本的质量控制至关重要,尤其是对于语言障碍患者,其语音的清晰度和自然度可能较低,如何在保证数据真实性的同时提升语音质量成为一大难题。此外,数据标注的复杂性也不容忽视,语音样本的声学特征、音节划分及时间对齐需要高度精确的标注工具和方法。最后,如何在保护说话者隐私的前提下进行数据共享,也是数据集推广和应用中需要解决的关键问题。
常用场景
经典使用场景
VoiceBank-2023数据集在语音合成领域具有重要应用,特别是在构建个性化的普通话文本到语音(TTS)系统中。该数据集通过包含不同发音清晰度的语音样本,能够有效支持针对语言障碍患者的个性化语音合成研究。其经典使用场景包括为肌萎缩侧索硬化症(ALS)患者构建个性化的语音合成模型,以帮助他们恢复或改善语音表达能力。
衍生相关工作
VoiceBank-2023数据集的发布推动了多项相关研究工作的开展。例如,基于该数据集的研究成果已被用于开发针对发音障碍患者的个性化TTS系统,并在语音病理学领域取得了显著进展。此外,该数据集还促进了语音合成技术与人工智能技术的结合,推动了语音合成模型在医疗辅助领域的应用。相关研究不仅提升了语音合成技术的性能,还为语言障碍患者提供了更加精准的语音辅助工具。
数据集最近研究
最新研究方向
在语音合成领域,VoiceBank-2023数据集为构建个性化的普通话文本到语音(TTS)系统提供了重要资源,特别是在面向言语障碍患者的应用中。该数据集涵盖了111名说话者的12,875条语音样本,总时长近30小时,涵盖了从流利语音到严重构音障碍的多种语音特征。其独特之处在于不仅包含了常规的语音样本,还特别设计了针对ALS患者等言语障碍者的语音库,为个性化TTS系统的开发提供了丰富的数据支持。近年来,随着人工智能技术在医疗辅助领域的深入应用,VoiceBank-2023在语音修复、语音质量评估以及个性化语音合成等研究方向中展现了巨大的潜力。该数据集的发布不仅推动了语音合成技术的进步,也为言语障碍患者的康复和生活质量提升提供了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作