VoiceBank-2023
收藏github2023-08-30 更新2024-05-31 收录
下载链接:
https://github.com/VoiceBank-NTPU-TW/VoiceBank-2023
下载链接
链接失效反馈官方服务:
资源简介:
VoiceBank-2023是一个专门为构建个性化普通话文本到语音(TTS)系统设计的语音语料库。该语料库包含两大部分,共有八个子语料库,旨在丰富通信功能并支持个性化TTS系统的开发。
VoiceBank-2023 is a specialized speech corpus designed for the development of personalized Mandarin text-to-speech (TTS) systems. The corpus comprises two main sections, encompassing a total of eight sub-corpora, aimed at enhancing communication capabilities and supporting the advancement of personalized TTS systems.
创建时间:
2023-08-25
原始信息汇总
数据集概述
数据集名称
- 名称: VoiceBank-2023
- URL: VoiceBank-2023
语言
- 语言: 主要为台湾普通话
数据集设计
- 设计目的: 用于构建个性化普通话文本到语音(TTS)系统
- 组成部分:
- Part 1 - VoiceBanking (子语料库1和2):
- 子语料库1: 覆盖所有普通话声母和韵母类型
- 子语料库2: 扩大语音库样本量
- Part 2 - Common Phrases (子语料库3至8):
- 子语料库3至8: 包含1至≥6个字符的短语,以丰富交流功能
- Part 1 - VoiceBanking (子语料库1和2):
数据集统计
- 发言人数量: 111
- 性别分布: 47名女性 + 64名男性
- 类型分布: 39名ALS患者 + 63名语音捐赠者 + 9名未知
- 语音数量: 12,875
- Part 1: 7,625
- Part 2: 5,250
- 总时长: 29.78小时
- Part 1: 28.18小时
- Part 2: 1.60小时
- 音节数量: 360,586
- Part 1: 342,486
- Part 2: 18,100
数据集规格
- 文本/提示材料:
- Part 1: 133个短段落
- Part 2: 556个常用短语
- 说话风格:
- Part 1: 朗读风格
- Part 2: 自然口语风格
- 用途:
- 个性化TTS
- 评估构音障碍、声音质量(抖动/闪烁)和录音声音质量
- 发言人详细信息:
- 性别分布: 47名女性 + 64名男性
- 类型分布: 39名ALS患者 + 63名语音捐赠者 + 9名未知
- 构音障碍程度: 86名(程度1:高语音可理解性)+ 11名(程度2)+ 12名(程度3)+ 2名(程度4:低语音可理解性)
技术规格
- 波形编码: 线性PCM,48kHz采样率,16位分辨率,单声道
- 麦克风/录音环境: 主要使用USB质量麦克风/主要在家或办公室
- 每个语音文件:
- .TextGrid: 语音学(声母/韵母)、音节(声调)和单词(词性及标点符号)的时间对齐
- .txt: UTF-8编码的原始文本文件
- .wav: WAVE格式文件
样本
- 提供四个不同构音障碍程度的语音样本文件,通过信号处理方法调整音高和速度,以去除发言人身份同时保持语音自然性。
搜集汇总
数据集介绍

构建方式
VoiceBank-2023数据集的构建旨在为个性化普通话文本转语音(TTS)系统提供支持,特别是针对语音障碍者。该数据集由两部分组成,共包含八个子语料库。第一部分为语音银行,涵盖所有普通话声母和韵母类型,并扩大了样本量;第二部分为常用短语,包含1至6个字符的短语,以丰富交流功能。数据采集涉及111名说话者,包括39名ALS患者、63名语音捐赠者和9名未知身份者,共录得12,875条语音,总时长达29.78小时。
特点
VoiceBank-2023数据集的特点在于其多样性和针对性。数据集不仅包含大量普通话语音样本,还特别关注语音障碍者的需求,涵盖了不同性别、年龄和语音障碍程度的说话者。语音样本以线性PCM格式存储,采样率为48kHz,分辨率为16位,单声道录制。此外,数据集提供了详细的语音对齐信息,包括音素、音节和词汇的时间对齐标注,为语音分析和模型训练提供了丰富的基础数据。
使用方法
VoiceBank-2023数据集的使用方法主要围绕个性化TTS系统的构建和语音障碍评估展开。研究人员可以通过分析数据集中的语音样本,训练和优化TTS模型,特别是针对语音障碍者的个性化需求。此外,数据集还可用于评估语音质量(如抖动和闪烁)和录音质量,为语音病理学研究提供支持。数据集可通过非商业用途申请获取,需联系相关作者获取访问权限。
背景与挑战
背景概述
VoiceBank-2023是由台湾国立台北大学语音与多媒体信号处理实验室(SMSPLab)与AcoustInTek公司及国立阳明交通大学合作开发的多说话者普通话语音语料库,旨在构建个性化的文本到语音(TTS)系统,特别是为语言障碍患者提供支持。该数据集于2023年8月发布,涵盖了111名说话者的12,875条语音样本,总时长达29.78小时。数据集分为两部分:第一部分专注于语音银行,涵盖所有普通话声母和韵母类型;第二部分则包含常见短语,以丰富语音的交际功能。VoiceBank-2023的发布为个性化TTS系统的开发提供了重要的数据支持,尤其在语言障碍患者的语音合成领域具有深远影响。
当前挑战
VoiceBank-2023在构建过程中面临多重挑战。首先,数据集的多样性要求涵盖不同性别、年龄及语言障碍程度的说话者,这对数据采集的广度和深度提出了较高要求。其次,语音样本的质量控制至关重要,尤其是对于语言障碍患者,其语音的清晰度和自然度可能较低,如何在保证数据真实性的同时提升语音质量成为一大难题。此外,数据标注的复杂性也不容忽视,语音样本的声学特征、音节划分及时间对齐需要高度精确的标注工具和方法。最后,如何在保护说话者隐私的前提下进行数据共享,也是数据集推广和应用中需要解决的关键问题。
常用场景
经典使用场景
VoiceBank-2023数据集在语音合成领域具有重要应用,特别是在构建个性化的普通话文本到语音(TTS)系统中。该数据集通过包含不同发音清晰度的语音样本,能够有效支持针对语言障碍患者的个性化语音合成研究。其经典使用场景包括为肌萎缩侧索硬化症(ALS)患者构建个性化的语音合成模型,以帮助他们恢复或改善语音表达能力。
衍生相关工作
VoiceBank-2023数据集的发布推动了多项相关研究工作的开展。例如,基于该数据集的研究成果已被用于开发针对发音障碍患者的个性化TTS系统,并在语音病理学领域取得了显著进展。此外,该数据集还促进了语音合成技术与人工智能技术的结合,推动了语音合成模型在医疗辅助领域的应用。相关研究不仅提升了语音合成技术的性能,还为语言障碍患者提供了更加精准的语音辅助工具。
数据集最近研究
最新研究方向
在语音合成领域,VoiceBank-2023数据集为构建个性化的普通话文本到语音(TTS)系统提供了重要资源,特别是在面向言语障碍患者的应用中。该数据集涵盖了111名说话者的12,875条语音样本,总时长近30小时,涵盖了从流利语音到严重构音障碍的多种语音特征。其独特之处在于不仅包含了常规的语音样本,还特别设计了针对ALS患者等言语障碍者的语音库,为个性化TTS系统的开发提供了丰富的数据支持。近年来,随着人工智能技术在医疗辅助领域的深入应用,VoiceBank-2023在语音修复、语音质量评估以及个性化语音合成等研究方向中展现了巨大的潜力。该数据集的发布不仅推动了语音合成技术的进步,也为言语障碍患者的康复和生活质量提升提供了新的可能性。
以上内容由遇见数据集搜集并总结生成



