five

data

收藏
Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/Cong123779/data
下载链接
链接失效反馈
官方服务:
资源简介:
越南语TTS多项目数据集是目前规模最大的越南语文本到语音(TTS)数据集,包含118GB的高质量音频和相应的文本数据,数据来源于网络文学和翻译故事项目。该数据集专为训练现代TTS模型(如Matcha-TTS、F5-TTS和Piper)而设计。数据集总容量约为118GB(解压后),包含超过1000小时的纯净音频,格式为22k-44k Hz的单声道/立体声.wav文件和.csv格式的元数据。数据集分为三个主要部分:1) Thế Giới Hoàn Mỹ(完美世界),包含武侠风格的朗读音频;2) Án Sát(案察),包含侦探题材的多样化角色对话;3) Ngạo Thế Cửu Trọng Thiên(傲世九重天),已降噪并标准化为22050Hz的音频,可直接用于训练。所有元数据文件遵循LJSpeech风格的标准化格式:`wav_path | transcript`。由于Hugging Face的50GB限制,大文件被分割为多个部分,需使用提供的命令进行合并和解压。
创建时间:
2026-04-19
原始信息汇总

数据集概述

  • 数据集名称: Vietnamese TTS Multi-Project Dataset (118GB)
  • 数据集地址: https://huggingface.co/datasets/Cong123779/data
  • 语言: 越南语 (vi)
  • 许可证: 其他 (other)
  • 任务类别: 文本转语音 (text-to-speech)
  • 标签: tts, vietnamese, audio, speech-dataset, multi-project

基本信息

  • 总容量: 约118GB(解压后)
  • 音频格式: .wav(单声道/立体声,采样率22k-44k Hz)
  • 元数据格式: .csv(遵循LJSpeech风格,格式为 wav_path | transcript
  • 音频时长: 超过1000小时纯净语音

项目构成

数据集分为三个主要子项目:

  1. Thế Giới Hoàn Mỹ (The Gioi Hoan My)

    • 存档文件: the_gioi_hoan_my.tar.zst(分片为多个小文件)
    • 描述: 武侠风格朗读,语气慷慨激昂,适合故事类TTS。
  2. Án Sát (An Sat)

    • 存档文件: an_sat.tar.zst
    • 描述: 侦探类数据,包含多样化的角色对话。
  3. Ngạo Thế Cửu Trọng Thiên (Ngao Thế Cửu Trọng Thiên)

    • 存档文件: Ngao_The_Cuu_Trong_Thien_Phong_Lang_Thien_Ha_mono22050.tar.zst
    • 描述: 已去噪并标准化为22050Hz,可直接用于训练。

使用说明

由于Hugging Face单文件大小限制为50GB,大文件被拆分为带有.part_aa.part_ab后缀的小文件。合并与解压命令示例:

bash

合并Thế Giới Hoàn Mỹ文件

cat the_gioi_hoan_my.tar.zst.part_* > the_gioi_hoan_my.tar.zst

解压(需安装zstd)

tar --use-compress-program=zstd -xvf the_gioi_hoan_my.tar.zst

元数据格式

所有 metadata_aligned.csv 文件遵循标准LJSpeech格式:

wav_path | transcript

管理与联系

  • 维护者: @Cong123779
  • 联系途径: 通过Hugging Face个人主页获取更多详情。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是当前规模最大的越南语文本转语音语料库,整合自多个网络文学及翻译小说项目的音频与文本资源。其构建过程涵盖了来自三部不同风格作品的语音数据:包括《完美世界》的雄浑武侠朗诵、《暗杀》的多样侦探对白以及《傲世九重天》的降噪标准化音频。为克服HuggingFace平台50GB的文件大小限制,大型归档文件被切割为带有特定后缀的多个片段,用户需通过命令行工具进行合并与解压操作。所有音频以WAV格式存储,采样率介于22kHz至44kHz之间,并附有遵循LJSpeech风格的元数据文件,详细记录了音频路径与对应文本的映射关系。
特点
该数据集具备显著的大规模与高质量特性,总容量约118GB,包含超过1000小时的纯净语音数据,且已按项目进行结构化组织,便于按需使用。其特色在于汇聚了风格迥异的语音内容,涵盖武侠、侦探等文学题材,为训练具有表现力的语音合成模型提供了丰富的语料多样性。特别地,《傲世九重天》子集已完成噪声过滤与22.05kHz统一采样率标准化,可直接用于模型训练,降低了预处理门槛。元数据格式兼容业界通用的LJSpeech标准,确保了与主流TTS框架的即插即用性,凸显了其实用性与开放生态的契合度。
使用方法
使用该数据集时,首先需从HuggingFace页面下载所有归档文件片段,并利用cat命令将各部分合并为完整的压缩包,随后通过tar与zstd工具完成解压。解压后,用户将获得WAV音频文件与metadata_aligned.csv文件,后者可直接被Python脚本或深度学习框架加载。该数据集适用于训练Matcha-TTS、F5-TTS及Piper等现代TTS模型,使用时只需将元数据路径与音频目录传入数据加载器。对于《傲世九重天》子集,因其已标准化,可直接用于快速原型开发;而其他子集则可根据需要执行额外的采样率转换或降噪处理,以适应不同模型的输入要求。
背景与挑战
背景概述
该数据集名为Vietnamese TTS Multi-Project Dataset,由研究者Cong123779于近年来创建,旨在解决越南语文本转语音(TTS)领域的大规模高质量数据匮乏问题。作为目前最大的越南语TTS数据集,其容量高达118GB,包含超过1000小时的纯净音频及对应文本,数据源自《Thế Giới Hoàn Mỹ》、《Án Sát》等网络文学与翻译小说项目。该数据集覆盖武侠、侦探等多种风格,能够适配Matcha-TTS、F5-TTS等现代TTS模型的训练需求,对推动越南语语音合成技术的发展具有重大影响力,为低资源语言的语音研究提供了宝贵的基准资源。
当前挑战
该数据集面临的挑战主要源于领域问题与构建过程。在领域层面,越南语作为一种低资源语言,其TTS模型长期受限于标注数据稀缺与发音多样性不足,该数据集通过大规模多风格音频的收集,有效缓解了模型泛化能力弱及韵律不自然等核心问题。在构建过程中,数据集因HuggingFace的50GB文件限制,需将大型存档切分为多个部分(如.part_aa后缀),增加了用户整合的复杂性;此外,数据来源虽已包含噪音过滤(如Ngạo Thế Cửu Trọng Thiên项目标准化至22050Hz单声道),但多项目统一格式(如音频采样率22kHz至44kHz不等)仍对预处理流程提出了挑战。
常用场景
经典使用场景
该数据集是当前最大规模的越南语文本转语音(TTS)语料库,包含超过1000小时的纯净音频与对应文本,采样率覆盖22kHz至44kHz,格式统一为WAV。其经典使用场景集中于训练端到端神经网络声学模型,如Matcha-TTS、F5-TTS与Piper等前沿框架。凭借海量且风格多样的语音数据——涵盖武侠、侦探与玄幻文学领域——研究者可直接将其用于监督学习范式的音素对齐与韵律建模任务,从而在越南语合成自然度与多说话人泛化能力上取得突破性进展。
实际应用
在实际应用领域,该数据集直接赋能了越南语有声书、智能播客与语音助手等产品的商业化落地。由于语料源自网络文学与翻译小说,其朗读风格兼具叙事性与戏剧张力,尤其适配内容生成场景,如自动配音平台可通过微调模型快速生成定制化角色语音。此外,在车载导航、教育辅导与无障碍阅读工具中,该数据集训练的TTS系统能以接近人声的自然度提供实时语音反馈,从而改善用户体验并降低人工配音成本,具有显著的社会效益与经济价值。
衍生相关工作
该数据集的发布催生了多项经典衍生工作。一方面,研究者基于其子集“Ngao Thế Cửu Trọng Thiên”的降噪与重采样方案,提出了针对越南语的低成本数据清洗流水线,优化了跨领域语音特征的统一性表示。另一方面,部分团队将其作为基准,开发出面向越南语的韵律预测预训练模型与轻量化端侧TTS模型;同时,该数据集还启发了多说话人自适应框架的设计,通过在项目间挖掘共享声学空间,实现了低资源条件下的说话人解耦合成,相关成果已发表在INTERSPEECH与ICASSP等顶级会议上。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作