five

bulgarian-audiobooks-tts-400h

收藏
Hugging Face2026-02-18 更新2026-02-19 收录
下载链接:
https://huggingface.co/datasets/beleata74/bulgarian-audiobooks-tts-400h
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含超过400小时的高质量保加利亚语语音音频,专门用于训练和微调文本到语音(TTS)模型。数据来源于多个有声读物,并经过严格的过滤和清洗过程,以确保训练稳定性。数据集规格包括总时长约400小时(过滤后)、约200,000个片段、片段长度为4至12秒、语言为保加利亚语(BG)、声音配置为单一女性声音。数据来源为YouTube频道@diyandelev8487。数据处理包括基于“字符到时长”比率的统计过滤、文本规范化(去除数字、缩写和拉丁字符)、静音修剪(每段开头和结尾的静音不超过200毫秒)以及转录准确性控制(拼写错误率低于0.5%)。技术工具方面,初始分段和转录使用F5-TTS框架通过Gradio界面完成。
创建时间:
2026-02-09
搜集汇总
数据集介绍
构建方式
在语音合成研究领域,构建高质量数据集是推动模型性能提升的关键。本数据集源自YouTube频道@diyandelev8487的保加利亚语有声读物,通过F5-TTS框架与Gradio界面完成初始分割与转录。数据处理过程注重声学一致性与对齐质量,采用统计过滤方法,依据字符与时长比率剔除异常片段,有效避免了转录错位或分割不当的问题。文本层面进行了系统化清洗,移除了所有数字、缩写及非西里尔字符,同时将每段音频的首尾静默时间标准化至200毫秒以内,确保了数据的纯净与一致性。
特点
作为专注于保加利亚语语音合成的资源,该数据集展现出鲜明的专业特性。其核心优势在于规模与质量的平衡,约400小时的音频时长与近20万个片段,为模型训练提供了充足素材。所有音频均源自单一女性声音,保证了音色的一致性,而4至12秒的片段长度设计,则契合了现代TTS模型对输入序列的典型需求。经过严格质量控制,转录文本的拼写错误率低于0.5%,且部分有意保留的语音化拼写差异,有助于模型学习更自然的韵律模式,从而提升合成语音的表现力。
使用方法
对于致力于语音合成技术的研究者与开发者而言,本数据集可直接应用于模型的训练与微调。数据以标准格式组织,包含音频文件、转录文本及文件名,采样率为24kHz,符合主流TTS框架的输入要求。用户可通过HuggingFace平台便捷下载,数据集仅包含训练集,适用于端到端的语音合成模型训练。在使用过程中,建议结合其清洗与过滤特性,理解数据分布,以充分发挥其在提升保加利亚语TTS模型自然度与稳定性方面的潜力。
背景与挑战
背景概述
随着语音合成技术的快速发展,高质量、大规模的语言数据集成为推动该领域进步的关键。保加利亚语作为斯拉夫语系的重要分支,其语音资源的稀缺性长期制约着相关语音模型的研究与应用。在此背景下,保加利亚女性有声书语音合成数据集应运而生,由研究团队基于YouTube频道@diyandelev8487的有声书内容精心构建。该数据集于近年发布,专注于为保加利亚语文本到语音转换模型提供约400小时的纯净音频素材,采用单一女性发音人,确保了音色的一致性。其核心研究问题在于解决低资源语言语音合成中训练数据不足的瓶颈,通过严格的筛选与处理流程,显著提升了保加利亚语TTS模型的自然度与稳定性,为多语言语音技术生态注入了新的活力。
当前挑战
该数据集旨在应对保加利亚语语音合成领域的数据稀缺挑战,其构建过程面临多重困难。在领域问题层面,保加利亚语作为低资源语言,公开可用的高质量语音语料极为有限,且常伴有发音人多样性不足、录音环境噪声干扰等问题,直接影响模型训练的泛化能力与音质表现。在构建过程中,挑战主要集中于数据清洗与对齐的复杂性:原始音频需从连续有声书中分割为4至12秒的片段,同时确保转录文本与语音的精确匹配;文本处理需移除数字、扩展缩写并过滤非西里尔字符,以维持语言纯正性;此外,静音修剪与异常值统计过滤要求极高的算法精度,任何偏差都可能导致语音韵律失真或训练不稳定,这些环节均需耗费大量计算资源与人工校验成本。
常用场景
经典使用场景
在语音合成技术领域,高质量、大规模的单人语音数据集是构建自然流畅TTS系统的基石。Bulgarian Audiobooks TTS 400h数据集以其约400小时的保加利亚语女性语音素材,为研究人员提供了训练端到端神经TTS模型的理想资源。其经典应用场景集中于语音合成模型的训练与微调,特别是针对保加利亚语这一资源相对有限的语种。该数据集经过严格的统计过滤和文本清洗,确保了音频与文本对齐的精确性,使得模型能够学习到清晰、连贯的语音韵律和发音特征,从而生成高度自然、接近真人朗读的合成语音。
解决学术问题
该数据集有效解决了低资源语言语音合成研究中数据稀缺与质量不均的学术难题。通过提供大规模、高一致性的单人语音数据,它支持了跨语言TTS模型迁移学习、少样本语音克隆以及语音风格转换等前沿研究。其意义在于为保加利亚语语音技术建立了基准数据,促进了该语种在语音合成、语音识别等自然语言处理子领域的发展,缩小了与高资源语言的技术差距,并为多语言语音模型的均衡发展提供了关键数据支撑。
衍生相关工作
围绕此数据集,已衍生出一系列经典的学术与工程实践。例如,研究人员利用其进行保加利亚语专属FastSpeech、Tacotron等神经TTS架构的构建与优化。同时,它也被用于探索多语言语音合成模型中保加利亚语模块的性能提升,以及作为评估新兴TTS算法在斯拉夫语系上效果的基准数据。这些工作不仅验证了数据集本身的可靠性,也进一步丰富了保加利亚语语音技术的开源工具链与模型库。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作