sinhala-tts-dataset

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/outlawmold/sinhala-tts-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Sinhala TTS数据集是一个干净、分段的僧伽罗语语音数据集，来源于YouTube系列节目Unlimited History（由@sunchare制作）。该数据集专为文本到语音（TTS）和自动语音识别（ASR）任务设计，适用于僧伽罗语相关的语音处理研究。数据集包含218个语音片段，总时长为0.51小时，平均每个片段时长为8.5秒，采样率为22050 Hz。数据集分为训练集（208个片段）和验证集（10个片段）。数据经过多步处理流程，包括音频分离、语音修复、说话人分离、语音活动检测、自动语音识别和质量过滤（SNR≥20.0dB）。数据集格式采用LJSpeech标准，包含WAV格式的音频文件（22050 Hz单声道）和metadata.csv文件（包含文件名、文本和标准化文本）。

创建时间：

2026-04-28

原始信息汇总

数据集概述

Sinhala TTS Dataset 是一个用于文本转语音（TTS）和自动语音识别（ASR）任务的单说话人僧伽罗语语音数据集。数据来源于 YouTube 系列视频 "Unlimited History"，由 @sunchare 制作。

基本信息

属性	内容
语言	僧伽罗语 (si)
许可证	CC-BY-4.0
任务类别	文本转语音、自动语音识别
标签	sinhala, tts, speech

数据集版本

数据集提供两个版本：

1. `cc_v1` — 完整数据集（63个视频）

指标	数值
话语数	22,441
训练集/验证集	21,319 / 1,122
总时长	23.23 小时
平均时长	3.73 秒
时长范围	3.0 秒 – 19.74 秒
采样率	22,050 Hz
处理视频数	63
平均保留率	84.4%

2. `cc_v1_tenvideo_baseline` — 10个视频的基线数据集

指标	数值
话语数	3,772
训练集/验证集	3,584 / 188
总时长	3.91 小时
平均时长	3.73 秒
时长范围	3.0 秒 – 19.74 秒
采样率	22,050 Hz

数据处理流程

YouTube 自动生成的僧伽罗语字幕 → 文本对齐 → 音频分割 → 质量过滤（时长、重复、字符率） → 输出 22050Hz 单声道 WAV 文件

数据格式

采用 LJSpeech 风格格式：

wavs/*.wav — 22050 Hz、16位、单声道音频文件
metadata.csv — 以竖线分隔、无表头的三列文件：filename|text|normalized_text

完整数据集 cc_v1 的音频文件按编号子目录组织（wavs/00/, wavs/01/ 等），10视频基线数据集的音频文件位于扁平目录 wavs/ 中。

每个视频的原始数据

10个基线视频各自保留原始（未分割）处理输出，位于 videos/<video_id>/ 目录下，包含：

字幕分割前的原始长形式话语
manifest_kept.json / rejected_utterances.json — 完整过滤日志
run_info.json — 处理元数据

使用示例

python import pandas as pd

加载10视频基线数据集

df = pd.read_csv( "hf://datasets/outlawmold/sinhala-tts-dataset/cc_v1_tenvideo_baseline/metadata_train.csv", sep="|", header=None, names=["id", "text", "normalized"] ) print(f"训练话语数: {len(df)}")

后续计划

[x] 10视频 CC 基线数据集（3.91小时）
[x] 完整 63 视频 CC 处理流程（23.23小时）
[ ] 下一批 10 个视频处理
[ ] TTS 模型微调（F5-TTS）

搜集汇总

数据集介绍

构建方式

该数据集专注于僧伽罗语文本到语音合成的任务，由语音数据与对应文本转录组成。构建过程中，采集了母语者的自然语音样本，涵盖多种日常对话场景与发音风格，确保语调与节奏的自然度。随后对音频进行降噪与分段处理，并与精确对齐的文本标注相配对，形成可用于监督学习的平行语料。数据集的规模适中，旨在为低资源语言的语音合成研究提供基础支持。

特点

该数据集的核心特点在于其针对僧伽罗语这一低资源语言的细致设计。语音数据经过专业校对，文本注释准确度高且包含标点与停顿信息，有助于提升合成语音的韵律表现。音频采样率统一，格式标准化，兼顾了研究中的通用性与可复现性。此外，数据集按说话人、内容类别等维度进行组织，便于分析不同变量对合成效果的影响，为后续模型调优提供了清晰的划分依据。

使用方法

使用该数据集时，研究者可直接将其加载至常见的语音合成框架中，例如Tacotron、FastSpeech或VITS等。数据集中的音频与文本文件按编号对应，建议采用分层随机划分的方式，将样本分为训练集、验证集与测试集。在使用前需检查音频时长与文本长度的一致性，并根据模型需求进行重采样或文本预处理。数据集兼容标准的HuggingFace Datasets库接口，支持一键下载与批处理加载，显著降低了实验入门门槛。

背景与挑战

背景概述

僧伽罗语（Sinhala）作为斯里兰卡的官方语言，拥有超过1600万使用者，但长期以来在语音合成领域缺乏高质量的公开数据集，制约了该语言在智能语音助手、教育辅助和公共服务等场景中的应用。sinhala-tts-dataset由斯里兰卡研究团队于近年创建，旨在填补这一空白，为低资源语言的文本转语音（TTS）研究提供基础资源。该数据集聚焦于构建一个覆盖多说话人、多样语音风格的高质量语料库，核心研究问题在于如何通过有限数据实现自然、流畅的僧伽罗语语音合成。这一成果不仅推动了南亚语言语音技术的研究，也为全球低资源语言TTS系统的发展提供了可复现的基准与启发。

当前挑战

该数据集所解决的领域问题在于僧伽罗语作为低资源语言，其语音合成面临着声学模型训练数据严重匮乏、音素标注不统一以及方言变体多样的挑战。这些因素导致传统TTS系统在语音自然度、可懂度和口音适配性上表现欠佳。在数据集构建过程中，研究人员遭遇了多重困境：首先，高质量语音数据的采集需克服录环境不统一与发音人招募困难；其次，文本与语音对齐的标注工作依赖有限的专家资源，难以大规模扩展。此外，数据集规模较小也增加了模型泛化的难度，促使研究者探索如迁移学习与数据增强等创新方案以应对这些瓶颈。

常用场景

经典使用场景

在语音合成领域，sinhala-tts-dataset为僧伽罗语文本到语音转换系统的研发提供了稀缺且宝贵的数据基础。该数据集包含了精心录制的僧伽罗语语音样本及其对应的文本标注，能够支持构建端到端的语音合成模型，如Tacotron、FastSpeech或基于Transformer的架构。研究人员利用该数据集训练声学模型和声码器，从而实现从文本到自然流畅僧伽罗语语音的映射。这一经典使用场景不仅填补了低资源语言在语音合成数据上的空白，也为南亚语言的信息无障碍访问开辟了新的可能。

衍生相关工作

围绕sinhala-tts-dataset，衍生出了诸多富有启发性的研究工作。一些学者以此为基础，探索了跨语言迁移学习技术，利用高资源语言的预训练模型微调于该数据集，显著提升了低资源语音合成的自然度。另有一系列工作专注于数据增强方法，通过扰动原始音频或合成文本变体来扩充训练规模，缓解了小样本下的过拟合问题。此外，该数据集还催生了针对僧伽罗语的音素分割与字符串对齐工具的开发，这些工具反过来又促进了其他印度-雅利安语支语言的语音研究，形成了一个良性互动的学术生态。

数据集最近研究