VoiceBank-2023

github2023-08-30 更新2024-05-31 收录

下载链接：

https://github.com/VoiceBank-NTPU-TW/VoiceBank-2023

下载链接

链接失效反馈

官方服务：

资源简介：

VoiceBank-2023是一个专门为构建个性化普通话文本到语音(TTS)系统设计的语音语料库。该语料库包含两大部分，共有八个子语料库，旨在丰富通信功能并支持个性化TTS系统的开发。

VoiceBank-2023 is a specialized speech corpus designed for the development of personalized Mandarin text-to-speech (TTS) systems. The corpus comprises two main sections, encompassing a total of eight sub-corpora, aimed at enhancing communication capabilities and supporting the advancement of personalized TTS systems.

创建时间：

2023-08-25

原始信息汇总

数据集概述

数据集名称

名称: VoiceBank-2023
URL: VoiceBank-2023

语言

语言: 主要为台湾普通话

数据集设计

设计目的: 用于构建个性化普通话文本到语音（TTS）系统
组成部分:
- Part 1 - VoiceBanking (子语料库1和2):
  - 子语料库1: 覆盖所有普通话声母和韵母类型
  - 子语料库2: 扩大语音库样本量
- Part 2 - Common Phrases (子语料库3至8):
  - 子语料库3至8: 包含1至≥6个字符的短语，以丰富交流功能

数据集统计

发言人数量: 111
- 性别分布: 47名女性 + 64名男性
- 类型分布: 39名ALS患者 + 63名语音捐赠者 + 9名未知
语音数量: 12,875
- Part 1: 7,625
- Part 2: 5,250
总时长: 29.78小时
- Part 1: 28.18小时
- Part 2: 1.60小时
音节数量: 360,586
- Part 1: 342,486
- Part 2: 18,100

数据集规格

文本/提示材料:
- Part 1: 133个短段落
- Part 2: 556个常用短语
说话风格:
- Part 1: 朗读风格
- Part 2: 自然口语风格
用途:
- 个性化TTS
- 评估构音障碍、声音质量（抖动/闪烁）和录音声音质量
发言人详细信息:
- 性别分布: 47名女性 + 64名男性
- 类型分布: 39名ALS患者 + 63名语音捐赠者 + 9名未知
- 构音障碍程度: 86名（程度1：高语音可理解性）+ 11名（程度2）+ 12名（程度3）+ 2名（程度4：低语音可理解性）

技术规格

波形编码: 线性PCM，48kHz采样率，16位分辨率，单声道
麦克风/录音环境: 主要使用USB质量麦克风/主要在家或办公室
每个语音文件:
- .TextGrid: 语音学（声母/韵母）、音节（声调）和单词（词性及标点符号）的时间对齐
- .txt: UTF-8编码的原始文本文件
- .wav: WAVE格式文件

样本

提供四个不同构音障碍程度的语音样本文件，通过信号处理方法调整音高和速度，以去除发言人身份同时保持语音自然性。

搜集汇总

数据集介绍

构建方式

VoiceBank-2023数据集的构建旨在为个性化普通话文本转语音（TTS）系统提供支持，特别是针对语音障碍者。该数据集由两部分组成，共包含八个子语料库。第一部分为语音银行，涵盖所有普通话声母和韵母类型，并扩大了样本量；第二部分为常用短语，包含1至6个字符的短语，以丰富交流功能。数据采集涉及111名说话者，包括39名ALS患者、63名语音捐赠者和9名未知身份者，共录得12,875条语音，总时长达29.78小时。

特点

VoiceBank-2023数据集的特点在于其多样性和针对性。数据集不仅包含大量普通话语音样本，还特别关注语音障碍者的需求，涵盖了不同性别、年龄和语音障碍程度的说话者。语音样本以线性PCM格式存储，采样率为48kHz，分辨率为16位，单声道录制。此外，数据集提供了详细的语音对齐信息，包括音素、音节和词汇的时间对齐标注，为语音分析和模型训练提供了丰富的基础数据。

使用方法

VoiceBank-2023数据集的使用方法主要围绕个性化TTS系统的构建和语音障碍评估展开。研究人员可以通过分析数据集中的语音样本，训练和优化TTS模型，特别是针对语音障碍者的个性化需求。此外，数据集还可用于评估语音质量（如抖动和闪烁）和录音质量，为语音病理学研究提供支持。数据集可通过非商业用途申请获取，需联系相关作者获取访问权限。

背景与挑战

背景概述

VoiceBank-2023是由台湾国立台北大学语音与多媒体信号处理实验室（SMSPLab）与AcoustInTek公司及国立阳明交通大学合作开发的多说话者普通话语音语料库，旨在构建个性化的文本到语音（TTS）系统，特别是为语言障碍患者提供支持。该数据集于2023年8月发布，涵盖了111名说话者的12,875条语音样本，总时长达29.78小时。数据集分为两部分：第一部分专注于语音银行，涵盖所有普通话声母和韵母类型；第二部分则包含常见短语，以丰富语音的交际功能。VoiceBank-2023的发布为个性化TTS系统的开发提供了重要的数据支持，尤其在语言障碍患者的语音合成领域具有深远影响。

当前挑战

VoiceBank-2023在构建过程中面临多重挑战。首先，数据集的多样性要求涵盖不同性别、年龄及语言障碍程度的说话者，这对数据采集的广度和深度提出了较高要求。其次，语音样本的质量控制至关重要，尤其是对于语言障碍患者，其语音的清晰度和自然度可能较低，如何在保证数据真实性的同时提升语音质量成为一大难题。此外，数据标注的复杂性也不容忽视，语音样本的声学特征、音节划分及时间对齐需要高度精确的标注工具和方法。最后，如何在保护说话者隐私的前提下进行数据共享，也是数据集推广和应用中需要解决的关键问题。

常用场景

经典使用场景

VoiceBank-2023数据集在语音合成领域具有重要应用，特别是在构建个性化的普通话文本到语音（TTS）系统中。该数据集通过包含不同发音清晰度的语音样本，能够有效支持针对语言障碍患者的个性化语音合成研究。其经典使用场景包括为肌萎缩侧索硬化症（ALS）患者构建个性化的语音合成模型，以帮助他们恢复或改善语音表达能力。

衍生相关工作

VoiceBank-2023数据集的发布推动了多项相关研究工作的开展。例如，基于该数据集的研究成果已被用于开发针对发音障碍患者的个性化TTS系统，并在语音病理学领域取得了显著进展。此外，该数据集还促进了语音合成技术与人工智能技术的结合，推动了语音合成模型在医疗辅助领域的应用。相关研究不仅提升了语音合成技术的性能，还为语言障碍患者提供了更加精准的语音辅助工具。

数据集最近研究