ntt123/viet-tts-dataset

Name: ntt123/viet-tts-dataset
Creator: ntt123
Published: 2022-05-06 09:03:02
License: 暂无描述

Hugging Face2022-05-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ntt123/viet-tts-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

越南语文本到语音数据集（VietTTS-v1.1）包含来自作家Vu Trong Phung的小说和短篇小说集的文本，这些文本属于公共领域。音频通过Google Text-to-Speech离线引擎在Android设备上生成，且不可用于商业用途。数据集大小为5.4G，总音频时长为35.9小时，包含22884个音频片段，最短片段为0.46秒，最长片段为15.4秒。

The Vietnamese Text-to-Speech Dataset (VietTTS-v1.1) consists of texts sourced from novels and short story collections by writer Vu Trong Phung, which are in the public domain. The audio was generated using the Google Text-to-Speech offline engine on Android devices, and this dataset cannot be used for commercial purposes. The total size of the dataset is 5.4 GB, with a combined audio duration of 35.9 hours, containing 22,884 audio clips. The shortest clip lasts 0.46 seconds, while the longest clip has a duration of 15.4 seconds.

提供机构：

ntt123

原始信息汇总

Vietnamese Text-To-Speech dataset (VietTTS-v1.1) 概述

数据集基本信息

许可证: CC-BY-NC-4.0
数据集大小: 5.4G
总音频时长: 35.9小时

数据集内容

文本来源: 来自作者"Vu Trong Phung"的小说和短篇故事，文本属于公共领域。
音频生成: 使用Google Text-to-Speech离线引擎在Android上生成，非商业用途。

数据集样本

样本1:
- 音频: file1
- 文本: "Ai" đây tức là một kẻ ăn mày vậy. Anh ta chưa kịp quay đi thì đã thấy mấy con chó vàng chạy xồng xộc ra cứ nhảy xổ vào chân anh.
样本2:
- 音频: file2
- 文本: Ừ, thế mày đã nuôi được bố mẹ mày bữa nào chưa, hay xưa nay vẫn báo hại cơm cha áo mẹ mãi? Mấy hôm thấy ông đơ mặt không thèm nói, mày lại làm già à?

数据集下载

下载链接: link
下载命令:

wget https://huggingface.co/datasets/ntt123/viet-tts-dataset/resolve/main/viet-tts.tar.gz -O viet-tts.tar.gz mkdir -p dataset tar -C dataset -xzf viet-tts.tar.gz

数据集目录结构

dataset ├── collections.txt ├── meta_data.tsv └── wav ├── 000000.wav ├── 000001.wav ├── 000002.wav ├── 000003.wav ...

数据集统计

音频片段数量: 22884 clips
最短音频片段时长: 0.46秒
中位数音频片段时长: 5.46秒
平均音频片段时长: 5.65秒
最长音频片段时长: 15.4秒

作者作品列表

Bệnh Lao Chữa Bằng Mồm Hay Là ... Thầy Lang Bất Hủ, 1934?
Cạm Bẫy Người, 1933.
Cơm Thầy Cơm Cô, 1936.
Đời Là Một Cuộc Chiến Đấu,1939.
Dứt Tình, 1934.
Giông Tố, 1936.
Gương Tống Tiền, N/A.
Hồ Sê Líu, Hồ Líu Sê Sàng, 1936.
Kỹ Nghệ Lấy Tây, 1934.
Làm Đĩ, 1936.
Lấy Nhau Vì Tình, 1937.
Lấy Vợ Xấu, 1937.
Lòng Tự Ái, 1937.
Máu Mê, 1937.
Một Cái Chết, 1931.
Một Con Chó Hay Chim Chuột, 1937.
Một Đồng Bạc, 1939.
Người Có Quyền, 1937.
Sao Mày Không Vỡ Nắp Ơi!, 1934.
Số Đỏ, 1936.
Sư Cụ Triết Lý, 1935.
Trúng Số Độc Đắc, 1938.
Tự Do, 1937.
Từ Lý Thuyết Đến Thực Hành, N/A.
Vỡ Đê, 1936.

搜集汇总

数据集介绍

构建方式

在越南语语音合成研究领域，数据集的构建需兼顾文本的文学价值与语音的合成质量。本数据集以越南著名作家武重奉的公开领域小说与短篇小说集为文本来源，确保了文本的丰富性与文化代表性。语音数据通过Android平台的Google文本转语音离线引擎生成，涵盖了22,884条音频片段，总时长约35.9小时，每条音频均与对应文本精确对齐，形成了规范的文本-音频配对结构。

特点

该数据集在越南语语音合成资源中展现出独特优势，其文本全部源自武重奉的文学作品，涵盖了1930年代越南社会的多样叙事风格，语言表达生动且具时代特色。音频数据经过精心处理，最短片段为0.46秒，最长片段达15.4秒，中位时长为5.46秒，整体分布均匀，适合模型训练。数据集规模达5.4GB，提供了高质量的语音样本，同时附有详细的元数据文件，便于研究者进行深入分析与应用。

使用方法

为高效利用本数据集，用户可通过提供的下载链接获取压缩包，解压后目录结构清晰，包含文本集合文件、元数据表及音频文件夹。研究者可依据元数据中的文本-音频对应关系，直接加载数据进行模型训练或评估。该数据集适用于越南语语音合成系统的开发、声学模型优化以及跨语言语音研究，但需注意音频数据仅限非商业用途，符合CC-BY-NC-4.0许可协议的要求。

背景与挑战

背景概述

在语音合成技术蓬勃发展的背景下，越南语文本到语音转换领域长期面临高质量数据稀缺的困境。为应对这一挑战，研究人员ntt123于近年构建了VietTTS-v1.1数据集，其文本语料源自越南著名作家武重奉的经典小说与短篇故事集，这些作品已进入公共领域。该数据集通过Android平台的Google文本转语音离线引擎生成音频，总时长约35.9小时，包含超过2.2万条音频片段，旨在为越南语TTS模型的训练与评估提供标准化资源，显著推动了低资源语言语音合成技术的研究进程。

当前挑战

该数据集致力于解决越南语语音合成中自然度与表现力不足的核心挑战，其构建过程亦面临多重困难。在领域层面，越南语丰富的声调系统与复杂的韵律结构对合成语音的自然流畅性提出了极高要求。数据构建过程中，挑战主要源于自动化生成流程的局限性：使用离线TTS引擎虽能批量生产，但可能导致语音情感单一、缺乏变化，且无法完全捕捉文学文本中细腻的语言风格与情感色彩。此外，数据集的非商业使用许可在一定程度上限制了其在工业场景下的广泛应用潜力。

常用场景

经典使用场景

在语音合成技术领域，高质量文本-语音对齐数据集的构建是推动模型性能提升的核心基础。VietTTS-v1.1数据集以其源自越南文学经典文本的纯净语料和通过Google TTS引擎生成的标准化音频，为越南语语音合成研究提供了经典范例。该数据集常被用于训练端到端的神经语音合成模型，如Tacotron或FastSpeech系列，研究者通过其丰富的文本语境和清晰的音频特征，优化模型在韵律建模、音素转换及自然度生成方面的表现，从而在学术界成为评估越南语TTS系统基准性能的重要资源。

解决学术问题

越南语作为低资源语言，在语音合成研究中长期面临数据稀缺的挑战。VietTTS-v1.1数据集通过提供超过35小时的文本-音频配对数据，有效缓解了数据匮乏问题，使研究者能够系统探索越南语特有的声调、音节结构及韵律规律。该数据集支持了音素对齐、多说话人建模、跨语言迁移学习等关键学术问题的实证研究，不仅填补了越南语TTS领域公开数据集的空白，也为低资源语言语音技术的研究方法论提供了可复现的实践框架，推动了语音合成技术的包容性发展。

衍生相关工作

围绕VietTTS-v1.1数据集，学术界衍生了一系列经典研究工作。例如，开源项目VietTTS库利用该数据集预训练了端到端的越南语语音合成模型，为社区提供了可扩展的工具链。后续研究在此基础上探索了对抗训练、韵律控制及轻量化部署等方向，部分工作进一步融合该数据集与多语言语料，实现了跨语言的语音特性迁移。这些衍生成果不仅丰富了越南语语音合成的技术谱系，也激励了更多研究者参与低资源语言技术生态的构建与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集