VoiceBank-2023

arXiv2023-08-27 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2308.14763v1

下载链接

链接失效反馈

官方服务：

资源简介：

VoiceBank-2023是一个多说话人的普通话语音语料库，用于构建针对语音障碍者的个性化TTS系统。该语料库包含29.78小时的短文和常用短语的语音，由111位普通话母语者录制，并标注了性别、语音障碍程度、用户类型、转录、信噪比和语速等信息。

VoiceBank-2023 is a multi-speaker Mandarin speech corpus intended for building personalized TTS systems for people with speech impairments. This corpus contains 29.78 hours of speech from short texts and common phrases, recorded by 111 native Mandarin speakers, and is annotated with details including gender, degree of speech impairment, user type, transcription, signal-to-noise ratio (SNR), and speech rate.

创建时间：

2023-08-27

搜集汇总

数据集介绍

构建方式

在语音合成技术快速发展的背景下，VoiceBank-2023语料库的构建旨在为汉语普通话语音障碍者提供个性化语音合成服务。该语料库的构建过程分为两个主要部分：语音银行部分和常用短语部分。语音银行部分的文本材料源自Treebank-SR语料库，通过精心设计的排序算法，确保在有限文本量下覆盖尽可能多的声韵母类型，从而实现语音平衡。常用短语部分则选自教科书附录，包含556条日常交流短语，按音节长度分类。录音工作分为四个阶段，初期采用现场录音方式，由专业技术人员协助确保质量；后期因应疫情开发了基于网络的录音平台，允许用户通过浏览器自助完成录音。所有录音均以线性PCM格式保存，采样率为48kHz，分辨率为16位。为确保数据质量，研究团队实施了严格的数据清洗与校正流程，包括文件格式检查、强制对齐验证以及自动语音识别校对，以剔除无效录音并修正文本转录错误。

使用方法

VoiceBank-2023语料库主要服务于构建面向语音障碍者的个性化文本转语音系统。研究人员可利用该语料库，通过说话人自适应技术，在预训练的参考TTS模型基础上，使用患者的有限语音数据进行模型微调，从而生成保留患者音色的合成语音。语料库中的语音银行部分（Part-1）专为模型训练设计，其文本与参考模型训练数据保持一致，确保了自适应过程的有效性。常用短语部分（Part-2）则可用于增强合成语音的交流与表达功能，既可作为训练数据的一部分，也可在辅助沟通设备中直接调用播放。此外，该语料库精细的多层级标注和丰富的元数据，使其同样适用于语音学分析、构音障碍自动评估、语音质量检测等学术研究。语料库以非商业用途为前提，通过申请获取，并鼓励各界参与VoiceBanking项目，共同完善针对语音障碍群体的服务。

背景与挑战

背景概述

在语音合成技术迅猛发展的背景下，针对特定群体的个性化语音合成系统逐渐成为研究热点。VoiceBank-2023数据集由台湾国立台北大学、国立阳明交通大学及AcoustInTek公司于2020年至2023年间联合构建，旨在为汉语普通话的言语障碍者，特别是肌萎缩侧索硬化症患者，提供个性化语音合成系统的构建基础。该数据集包含111名母语为普通话的发音人录制的29.78小时语音，涵盖短段落和常用短语，并标注了性别、言语障碍程度、转录文本等多维度元数据。其核心研究问题聚焦于如何在语音数据稀缺的条件下，为言语障碍者构建高自然度和高相似度的个性化语音合成系统，以支持其辅助与替代沟通需求。该数据集的发布填补了汉语普通话个性化语音合成服务领域的空白，为相关医学、语音技术及人机交互研究提供了宝贵资源。

当前挑战

VoiceBank-2023数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上，个性化语音合成系统需解决语音数据极端稀缺的难题，尤其是针对言语障碍者，其语音样本往往有限且质量参差不齐，这要求模型具备强大的小样本适应能力与鲁棒性，以在有限数据下保持合成语音的清晰度、自然度及说话人相似性。在构建过程中，挑战包括如何设计语音平衡的文本材料以覆盖尽可能多的发音单元，同时确保文本长度适合非专业发音人流畅朗读；此外，数据收集需兼顾现场录制与基于网络的自助录制，后者虽提升了可及性，却引入了录音环境噪声、设备差异及文本-语音对齐错误等问题，需通过强制对齐、自动语音识别校验及人工修正等多重流程进行数据净化与校正，以确保语料库的整体质量与可用性。

常用场景

经典使用场景

在语音合成技术领域，VoiceBank-2023数据集主要应用于构建个性化文本转语音系统，特别针对汉语普通话使用者中的言语障碍群体。该数据集通过收录111名母语者的语音样本，涵盖短段落和常用短语，为研究者提供了丰富的多说话人语音资源。其经典使用场景在于训练和评估适应特定说话人特征的TTS模型，尤其在资源稀缺的言语障碍语音数据背景下，该数据集成为开发高保真个性化合成系统的关键基础。

解决学术问题

VoiceBank-2023数据集有效解决了言语障碍人群个性化语音合成研究中数据匮乏的核心难题。通过系统收录肌萎缩侧索硬化症患者及语音捐赠者的语音，该数据集支持小样本说话人自适应技术的研究，使模型能够从有限数据中学习说话人身份特征。同时，其标注的语音清晰度等级、性别、语速等元数据，为探索语音障碍评估、语音质量分析等跨学科问题提供了实证基础，推动了辅助沟通技术的学术进展。

实际应用

在实际应用中，VoiceBank-2023数据集直接服务于构建面向言语障碍者的个性化语音生成设备。基于该数据集训练的TTS系统可作为增强性与替代性沟通工具，帮助肌萎缩侧索硬化症患者在丧失说话能力后使用合成语音进行日常交流。此外，其配套的在线语音银行平台允许用户通过自助录音存储个人语音，为临床康复和社区支持提供了可行技术方案，体现了语音技术在医疗辅助领域的实际价值。

数据集最近研究