tts-synthesis-audio

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/doannv/tts-synthesis-audio

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含越南语语音文本对，提供三种配置版本（vi_nm, vi_sf, vi_sm）。每个配置包含24kHz采样率的音频文件和对应文本字符串，分为训练集和测试集。具体规模如下：1) vi_nm：训练集73,698样本（32.7GB），测试集8,189样本（3.6GB）；2) vi_sf：训练集80,493样本（39.2GB），测试集8,944样本（4.4GB）；3) vi_sm：训练集35,999样本（23.1GB），测试集4,000样本（2.6GB）。适用于语音合成、语音识别等音频-文本对齐任务。

创建时间：

2026-03-02

原始信息汇总

数据集概述

基本信息

数据集名称: tts-synthesis-audio
托管平台: Hugging Face Datasets
数据集地址: https://huggingface.co/datasets/doannv/tts-synthesis-audio

数据集配置

该数据集包含三个独立的配置，每个配置对应不同的数据子集。

配置一：vi_nm

配置名称: vi_nm
数据特征:
- audio: 音频数据，采样率为 24000 Hz。
- text: 字符串类型，对应音频的文本内容。
数据划分:
- 训练集 (train):
  - 样本数量: 73,698
  - 数据大小: 32,766,467,876 字节
- 测试集 (test):
  - 样本数量: 8,189
  - 数据大小: 3,612,142,200 字节
总量信息:
- 下载大小: 32,932,944,253 字节
- 数据集大小: 36,378,610,076 字节
文件路径:
- 训练集: vi_nm/train-*
- 测试集: vi_nm/test-*

配置二：vi_sf

配置名称: vi_sf
数据特征:
- audio: 音频数据，采样率为 24000 Hz。
- text: 字符串类型，对应音频的文本内容。
数据划分:
- 训练集 (train):
  - 样本数量: 80,493
  - 数据大小: 39,245,560,084 字节
- 测试集 (test):
  - 样本数量: 8,944
  - 数据大小: 4,410,383,589 字节
总量信息:
- 下载大小: 43,705,454,384 字节
- 数据集大小: 43,655,943,673 字节
文件路径:
- 训练集: sf/train-*
- 测试集: sf/test-*

配置三：vi_sm

配置名称: vi_sm
数据特征:
- audio: 音频数据，采样率为 24000 Hz。
- text: 字符串类型，对应音频的文本内容。
数据划分:
- 训练集 (train):
  - 样本数量: 35,999
  - 数据大小: 23,066,415,210 字节
- 测试集 (test):
  - 样本数量: 4,000
  - 数据大小: 2,552,827,657 字节
总量信息:
- 下载大小: 23,111,931,824 字节
- 数据集大小: 25,619,242,867 字节
文件路径:
- 训练集: vi_sm/train-*
- 测试集: vi_sm/test-*

总体特征

通用特征: 所有配置均包含“音频-文本”对。
音频规格: 所有音频数据的采样率统一为 24000 Hz。
数据划分: 每个配置均明确划分为训练集和测试集。

搜集汇总

数据集介绍

构建方式

在语音合成领域，高质量的音频-文本配对数据是模型训练的基础。tts-synthesis-audio数据集通过系统化的采集流程构建，涵盖了越南语的多种语音变体，具体包括vi_nm、vi_sf和vi_sm三种配置。每个配置均包含训练集和测试集，音频数据以24kHz采样率存储，确保声音信号的保真度。数据集的构建注重语音的多样性与平衡性，通过分片存储优化了大规模数据的访问效率，为语音合成研究提供了结构化的资源支持。

特点

该数据集在语音合成任务中展现出鲜明的技术特征。其核心在于提供了三种不同的越南语语音配置，分别对应不同的说话人特征或录音条件，从而覆盖了语音的多样性。音频数据统一采用24kHz采样率，保证了声音质量的一致性，便于模型进行标准化处理。数据集规模可观，例如vi_sf配置包含近8万训练样本，为模型训练提供了充足的数据支撑。分割为训练集和测试集的设计，有助于研究者进行模型训练与性能评估，体现了数据集的实用性与完整性。

使用方法

对于语音合成模型的研究与开发，该数据集提供了便捷的应用途径。用户可通过HuggingFace平台直接加载指定的配置，如vi_nm、vi_sf或vi_sm，并访问对应的训练和测试分割。数据以音频-文本配对形式呈现，可直接用于端到端的语音合成模型训练，例如基于深度学习的TTS系统。在预处理阶段，用户可依据24kHz采样率进行音频特征提取，结合文本数据进行对齐处理。数据集的分片存储结构支持流式加载，适合处理大规模数据，有效提升了实验效率与可重复性。

背景与挑战

背景概述

在语音合成技术迅猛发展的背景下，高质量、多方言的语音数据集成为推动该领域进步的关键资源。tts-synthesis-audio数据集应运而生，专注于越南语语音合成任务，由研究机构或团队精心构建，旨在解决越南语在语音合成领域数据稀缺的核心问题。该数据集涵盖了不同发音风格的语音样本，如自然发音、特定性别发音等，为开发更自然、更具表现力的越南语语音合成模型提供了重要支持，对促进低资源语言语音技术的研究与应用具有显著影响力。

当前挑战

tts-synthesis-audio数据集面临的挑战主要集中于领域问题与构建过程两方面。在领域层面，越南语作为低资源语言，其语音合成任务常受限于数据多样性不足与发音复杂性，导致模型在泛化性与自然度上存在瓶颈。构建过程中，挑战包括确保音频质量的一致性、处理不同发音风格间的平衡，以及大规模数据采集与标注的高成本与耗时问题，这些因素共同制约了数据集的扩展与应用效果。

常用场景

经典使用场景

在语音合成技术领域，tts-synthesis-audio数据集为越南语文本到语音转换模型的训练与评估提供了关键资源。该数据集包含多个配置，如vi_nm、vi_sf和vi_sm，每个配置均提供音频与对应文本的配对数据，采样率为24000赫兹，适用于端到端的语音合成任务。研究人员利用这些数据训练神经网络模型，以生成自然流畅的越南语语音，特别在优化音质和韵律方面发挥重要作用。

解决学术问题

tts-synthesis-audio数据集解决了语音合成研究中数据稀缺和语言多样性不足的学术问题。越南语作为资源相对匮乏的语言，该数据集通过大规模、高质量的音频-文本对，支持了低资源语言语音合成模型的开发。它促进了跨语言语音技术的研究，帮助学术界探索多语言环境下的模型泛化能力，并为语音生成中的声学建模和文本对齐提供了标准化基准。

衍生相关工作

基于tts-synthesis-audio数据集，衍生出多项经典研究工作，包括针对越南语优化的Tacotron和WaveNet变体模型。这些工作专注于改进语音合成的韵律控制和音色保真度，例如通过迁移学习将多语言模型适配到越南语场景。此外，该数据集还激发了低资源语音合成竞赛和基准测试，促进了学术界与工业界在语音技术领域的合作与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集