越南语音频数据集

Name: 越南语音频数据集
Creator: 越南科学技术信息研究所
Published: 2019-04-11 15:57:51
License: 暂无描述

arXiv2019-04-11 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1904.05569v1

下载链接

链接失效反馈

官方服务：

资源简介：

越南语音频数据集是由越南科学技术信息研究所等机构创建的高质量语音数据库，旨在支持越南语语音分析和合成模型的构建。该数据集包含5400个由12名不同年龄和地区背景的越南北部人录制的清晰语音样本，其中男女各半。数据集设计注重音素平衡，确保适用于语音合成，特别是语音适应方法。所有发言者共同使用250个音素平衡的句子，并额外录制200个非共享的音素平衡句子以增加语音环境的多样性。该数据集的应用领域包括语音合成适应系统的开发，旨在解决特定语音样本有限情况下的模型生成问题。

The Vietnamese speech audio dataset is a high-quality speech database created by the Vietnam Institute of Science and Technology Information and other institutions, aiming to support the development of Vietnamese speech analysis and synthesis models. This dataset contains 5,400 clear speech samples recorded by 12 northern Vietnamese speakers with diverse age and regional backgrounds, with an equal gender split. The dataset is designed with phonetic balance as a core principle, ensuring its suitability for speech synthesis, particularly for speaker adaptation approaches. All speakers shared 250 phonetically balanced sentences, and additionally recorded 200 non-shared phonetically balanced sentences to enhance the diversity of speech contexts. The application scope of this dataset covers the development of speech synthesis adaptation systems, which aims to resolve model generation challenges when the number of available specific speech samples is limited.

提供机构：

越南科学技术信息研究所

创建时间：

2019-04-11

搜集汇总

数据集介绍

构建方式

该数据集基于越南语音系结构精心设计，首先从电子新闻中收集大量文本，经过数据清洗、文本规范化与标准词转换等预处理步骤，去除噪声与非标准表达。随后采用贪婪搜索算法，从处理后的句子中选取能够覆盖全部单音素及99%双音素的最小句子集，确保音素平衡。最终选定250句共享句子供所有发音人录制，另为每位发音人额外选取200句非共享句子以增加语音多样性。录音在隔音录音室进行，由12位来自越南北部5个省份、年龄22至35岁间的发音人（男女各半）完成，音频以48kHz采样率、16位PCM、单声道格式保存，共获得5400条高质量语音。

特点

数据集的核心特点在于其音素平衡性与高质量。仅用250句共享句子即可覆盖所有单音素和99%双音素，展现了极高的音素覆盖效率。非共享句子的加入进一步丰富了语音语境，使总语料达到5400条，为语音合成自适应研究提供了充足数据。发音人覆盖广泛年龄层与多地地域，增强了语音的年龄与地域多样性。音频在专业录音室录制，经Praat软件分析确认音质清晰、噪音极低，采样率与位深度均达专业标准。此外，时长分析揭示同年龄同性别的发音人语速相似，而跨年龄与性别时差异显著，为自适应合成中数据选择提供了重要指导。

使用方法

数据集适用于越南语语音特性分析与语音合成系统构建，尤其适合语音自适应合成研究。使用时可直接将音频与对应文本配对，作为声学模型训练数据，支持HMM或深度学习框架。由于音素平衡设计，研究者可仅用共享句子集进行基础模型训练，再通过非共享句子实现特定发音人的自适应。时长分析结果提示，在自适应任务中按性别或年龄分组选择数据可优化模型性能。数据集以48kHz高质量音频提供，也可降采样至16kHz以匹配常见语音处理流程。建议结合Kaldi等工具进行音频对齐与特征提取，或直接用于端到端合成系统的训练与评估。

背景与挑战

背景概述

越南语音频数据集由Pham Ngoc Phuong、Quoc Truong Do和Luong Chi Mai等研究人员于2018年在Oriental COCOSDA会议上提出，旨在为越南语语音分析与合成研究提供高质量、音素平衡的语音资源。该数据集由12名来自越南北部不同省份的男女发音人录制，包含5400条纯净语音，采样率为48kHz，16位PCM单声道，录音在隔音录音室完成。其核心研究问题在于解决越南语语音合成中因数据不足而难以实现说话人自适应的问题，尤其关注音素覆盖的均衡性。相比VOV、VIVOS等现有语料库，该数据集在音质、音素平衡性和自适应研究适用性上具有显著优势，为越南语语音技术发展提供了重要基础。

当前挑战

该数据集面临的核心挑战包括：其一，越南语作为声调语言，拥有6个声调和约6500个常用音节，音素结构复杂，需在有限句子中实现单音素和双音素的高覆盖，设计上需兼顾音素平衡与录音成本，最终通过贪心搜索算法仅用250句公用句即覆盖全部单音素和99%双音素；其二，录音过程中需确保语料纯净，包括文本清洗、非标准词规范化（如数字、缩写、外来词转写）以及发音人年龄、地域的多样性选择，以支持语音合成自适应研究；其三，构建时需处理音素时长随性别和年龄的差异，实验表明相同性别和年龄的发音人语速更一致，这为后续自适应建模中的数据筛选提出了更高要求。

常用场景

经典使用场景

在语音合成与语音分析的研究领域中，高质量且具备音素平衡特性的语料库是构建稳健模型的基础。越南语音频数据集以其精心设计的音素覆盖策略，成为语音合成系统，尤其是说话人自适应合成研究的核心资源。该数据集包含12位来自越南北部不同省份、年龄跨度从22岁至35岁的发音人，每位发音人录制了250句共享音素平衡句和200句非共享句，总计5400条纯净语音。这种设计确保了单音素全覆盖及双音素99%的覆盖率，为语音特征分析、韵律建模和声学参数提取提供了理想的数据基础，广泛应用于跨说话人语音合成与语音特性对比研究。

解决学术问题

该数据集解决了越南语语音研究中长期存在的关键问题：缺乏高质量、音素平衡且适用于自适应语音合成的小规模语料。以往语料库如VAIS-1000仅包含单一发音人且带有地域口音，VIVOS虽用于识别但音质有限，VOV则源自媒体噪声环境。本数据集通过精心设计的文本筛选流程，从电子报纸中提取并标准化句子，再采用贪婪搜索算法选取最小音素平衡集，从而在保持高音质（48kHz采样、16位PCM）的同时，实现了对音素分布的全面覆盖。这一设计使得研究人员能够利用少量自适应数据进行说话人模型迁移，显著推动了越南语统计参数语音合成和HMM建模的学术进展，并为跨语言语音合成研究提供了对比基准。

衍生相关工作

该数据集衍生了一系列重要的研究工作，尤其在越南语语音合成自适应领域。基于其音素平衡设计，研究者开发了基于HMM和深度神经网络的说话人自适应合成算法，探索了性别和年龄对语音时长分布的影响，发现同年龄同性别的发音人具有相似的语速特征，从而优化了自适应模型的数据选择策略。此外，该数据集被用于构建越南语统计参数语音合成系统，推动了声码器和韵律建模技术的改进。在语音分析方面，通过Praat工具对波形和频谱的详细分析，衍生出针对越南语声调特性的声学研究。这些工作不仅提升了越南语语音合成的自然度，还为低资源语言的语音技术发展提供了可复用的方法论框架。

以上内容由遇见数据集搜集并总结生成