five

balinese_parquet_tts

收藏
Hugging Face2025-05-20 更新2025-05-21 收录
下载链接:
https://huggingface.co/datasets/1ndianajones/balinese_parquet_tts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含文本和音频数据的集合,适用于训练机器学习模型。数据集分为训练集,共有1187个样本,数据大小约为385MB。
创建时间:
2025-05-13
搜集汇总
数据集介绍
main_image_url
构建方式
在巴厘语语音合成研究领域,该数据集通过系统化采集巴厘语巴东口音的语言材料构建而成。原始语音素材源自Mendeley数据平台公开的巴厘语文化遗产语料库,经过专业转写和标准化处理形成文本-音频配对数据。技术团队采用Apache Parquet格式对1187个样本进行结构化存储,每个样本包含文本转录和包含路径信息、波形数组及采样率的音频字典,最终形成总时长33分22秒的高质量语音数据集。
特点
本数据集最显著的特征在于其文化专属性,完整呈现了巴厘语巴东方言的语音特质。数据样本涵盖日常短语及文化特定表达,所有音频均保持48kHz高采样率,确保语音信号的保真度。其技术架构采用列式存储的Parquet格式,兼具高效查询与压缩优势,文本转录与音频波形数据的精确对齐为语音合成模型训练提供了可靠基础。
使用方法
研究人员可通过HuggingFace数据集库直接加载该数据集,调用load_dataset()函数即可访问文本-音频配对样本。在具体应用中,音频字典包含的波形数组可直接输入神经网络进行声学特征提取,文本数据则适用于语言模型预处理。建议将48kHz音频重采样至目标频率以适应不同模型架构,该数据集特别适用于低资源语种的端到端语音合成系统开发。
背景与挑战
背景概述
在低资源语言技术保护领域,巴厘语作为印度尼西亚重要的文化遗产语言,其数字化传承面临严峻挑战。2024年由乌达亚纳大学团队主导构建的Balinese TTS数据集,聚焦于巴厘语Badung方言的语音合成技术开发。该数据集通过采集1187个音频样本构成历时33分钟的语音库,采用Apache Parquet格式存储音频波形与文本转录的对应关系,为构建巴厘语神经语音合成模型提供了关键数据支撑,对濒危语言的数字活化与文化遗产保护具有里程碑意义。
当前挑战
在语音合成技术领域,低资源语言的声学建模始终面临数据稀疏性挑战。Balinese TTS数据集需解决Badung方言特有的音韵特征捕捉难题,包括声调变化与韵律结构的精确建模。数据构建过程中遭遇方言发音人稀缺、专业标注资源不足等困难,同时需克服高采样率音频与文本对齐的技术障碍。这些挑战直接影响合成语音的自然度与方言特质的保留程度,对模型泛化能力提出更高要求。
常用场景
经典使用场景
在低资源语言技术研究领域,该数据集为巴厘语语音合成系统开发提供了核心训练资源。研究者通过端到端神经网络架构,将文本特征与音频波形映射关联,构建具备自然韵律的声学模型。典型流程包括提取梅尔频谱图作为中间表征,并利用自回归或非自回归模型生成符合巴厘语Badung方言特点的语音波形。
衍生相关工作
该数据集的发布催生了系列巴厘语多模态研究,包括融合文本与声学特征的方言识别模型、基于对抗训练的语音增强方法。在文化遗产数字化方向,衍生出结合语音合成与古籍文本的自动朗诵系统,以及跨语言语音转换技术在巴厘语-印度尼西亚语互译场景的创新应用。
数据集最近研究
最新研究方向
在低资源语言保护与数字文化遗产复兴的背景下,Balinese_parquet_tts数据集正推动巴厘语语音合成技术的前沿探索。当前研究聚焦于跨语言迁移学习与端到端神经声学建模,通过预训练模型的知识迁移解决数据稀缺难题,同时结合韵律分析与方言音系特征提取,提升合成语音的自然度与文化适应性。该数据集作为首个系统化巴厘语语音库,不仅助力濒危语言的数字化存档,更在智能语音助手与教育技术领域开辟了文化敏感性应用的新路径,为全球语言多样性保护提供了关键技术支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作