balinese_parquet_tts

Hugging Face2025-05-20 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/1ndianajones/balinese_parquet_tts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含文本和音频数据的集合，适用于训练机器学习模型。数据集分为训练集，共有1187个样本，数据大小约为385MB。

创建时间：

2025-05-13

搜集汇总

数据集介绍

构建方式

在巴厘语语音合成研究领域，该数据集通过系统化采集巴厘语巴东口音的语言材料构建而成。原始语音素材源自Mendeley数据平台公开的巴厘语文化遗产语料库，经过专业转写和标准化处理形成文本-音频配对数据。技术团队采用Apache Parquet格式对1187个样本进行结构化存储，每个样本包含文本转录和包含路径信息、波形数组及采样率的音频字典，最终形成总时长33分22秒的高质量语音数据集。

特点

本数据集最显著的特征在于其文化专属性，完整呈现了巴厘语巴东方言的语音特质。数据样本涵盖日常短语及文化特定表达，所有音频均保持48kHz高采样率，确保语音信号的保真度。其技术架构采用列式存储的Parquet格式，兼具高效查询与压缩优势，文本转录与音频波形数据的精确对齐为语音合成模型训练提供了可靠基础。

使用方法

研究人员可通过HuggingFace数据集库直接加载该数据集，调用load_dataset()函数即可访问文本-音频配对样本。在具体应用中，音频字典包含的波形数组可直接输入神经网络进行声学特征提取，文本数据则适用于语言模型预处理。建议将48kHz音频重采样至目标频率以适应不同模型架构，该数据集特别适用于低资源语种的端到端语音合成系统开发。

背景与挑战

背景概述

在低资源语言技术保护领域，巴厘语作为印度尼西亚重要的文化遗产语言，其数字化传承面临严峻挑战。2024年由乌达亚纳大学团队主导构建的Balinese TTS数据集，聚焦于巴厘语Badung方言的语音合成技术开发。该数据集通过采集1187个音频样本构成历时33分钟的语音库，采用Apache Parquet格式存储音频波形与文本转录的对应关系，为构建巴厘语神经语音合成模型提供了关键数据支撑，对濒危语言的数字活化与文化遗产保护具有里程碑意义。

当前挑战

在语音合成技术领域，低资源语言的声学建模始终面临数据稀疏性挑战。Balinese TTS数据集需解决Badung方言特有的音韵特征捕捉难题，包括声调变化与韵律结构的精确建模。数据构建过程中遭遇方言发音人稀缺、专业标注资源不足等困难，同时需克服高采样率音频与文本对齐的技术障碍。这些挑战直接影响合成语音的自然度与方言特质的保留程度，对模型泛化能力提出更高要求。

常用场景

经典使用场景

在低资源语言技术研究领域，该数据集为巴厘语语音合成系统开发提供了核心训练资源。研究者通过端到端神经网络架构，将文本特征与音频波形映射关联，构建具备自然韵律的声学模型。典型流程包括提取梅尔频谱图作为中间表征，并利用自回归或非自回归模型生成符合巴厘语Badung方言特点的语音波形。

衍生相关工作

该数据集的发布催生了系列巴厘语多模态研究，包括融合文本与声学特征的方言识别模型、基于对抗训练的语音增强方法。在文化遗产数字化方向，衍生出结合语音合成与古籍文本的自动朗诵系统，以及跨语言语音转换技术在巴厘语-印度尼西亚语互译场景的创新应用。

数据集最近研究