five

huseinzol05/Malay-TTS-Yasmin

收藏
Hugging Face2022-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/huseinzol05/Malay-TTS-Yasmin
下载链接
链接失效反馈
官方服务:
资源简介:
# Malay-TTS-Yasmin All notebooks and code related at https://github.com/huseinzol05/malaya-speech/tree/master/data/azure-tts ## Attributes ### Wiki and News - 24000 sample rate, super clean. - narrator `ms-MY-YasminNeural`. - approximate 99.4 hours. - Texts from Malay Wikipedia and News. - Sentences between 2 words and 20 words. ### Parliament - 24000 sample rate, super clean. - narrator `ms-MY-YasminNeural`. - approximate 142 hours. - Texts from Malaysia Malay Parliament. - Sentences between 2 words and 25 words. ## how-to ### Wiki and News 1. Download [populated-text.json](populated-text.json) and [tts-malay-yasmin.tar.gz](tts-malay-yasmin.tar.gz). 2. To get wav and transcript, ```python import json import soundfile as sf with open('populated-text.json') as fopen: texts = json.load(fopen) index = 0 text = texts[index] y, sr = sf.read(f'female/{index}.wav') ``` ### Parliament 1. Download [populated-parliament.json](populated-parliament.json) and [tts-malay-yasmin-parliament.tar.gz](tts-malay-yasmin-parliament.tar.gz). 2. To get wav and transcript, ```python import json import soundfile as sf with open('populated-parliament.json') as fopen: texts = json.load(fopen) index = 0 text = texts[index] y, sr = sf.read(f'female-parliament/{index}.wav') ```

# 马来语语音合成数据集-Yasmin(Malay-TTS-Yasmin) 所有相关笔记本与代码可访问:https://github.com/huseinzol05/malaya-speech/tree/master/data/azure-tts ## 数据集属性 ### 维基百科与新闻语料子集 - 采样率为24000,音质纯净无杂音。 - 发音人(narrator)为`ms-MY-YasminNeural` - 总时长约99.4小时。 - 文本来源为马来语维基百科与新闻稿件。 - 句子长度介于2至20个单词之间。 ### 马来西亚议会语料子集 - 采样率为24000,音质纯净无杂音。 - 发音人(narrator)为`ms-MY-YasminNeural` - 总时长约142小时。 - 文本来源为马来西亚马来语议会文稿。 - 句子长度介于2至25个单词之间。 ## 使用方法 ### 维基百科与新闻语料子集 1. 下载 [populated-text.json](populated-text.json) 与 [tts-malay-yasmin.tar.gz](tts-malay-yasmin.tar.gz)。 2. 获取音频波形与转录文本的代码示例: python import json import soundfile as sf with open('populated-text.json') as fopen: texts = json.load(fopen) index = 0 text = texts[index] y, sr = sf.read(f'female/{index}.wav') ### 马来西亚议会语料子集 1. 下载 [populated-parliament.json](populated-parliament.json) 与 [tts-malay-yasmin-parliament.tar.gz](tts-malay-yasmin-parliament.tar.gz)。 2. 获取音频波形与转录文本的代码示例: python import json import soundfile as sf with open('populated-parliament.json') as fopen: texts = json.load(fopen) index = 0 text = texts[index] y, sr = sf.read(f'female-parliament/{index}.wav')
提供机构:
huseinzol05
原始信息汇总

Malay-TTS-Yasmin 数据集概述

数据集属性

Wiki and News 部分

  • 采样率: 24000 Hz
  • 叙述者: ms-MY-YasminNeural
  • 时长: 约99.4小时
  • 文本来源: 马来语维基百科和新闻
  • 句子长度: 2至20个单词

Parliament 部分

  • 采样率: 24000 Hz
  • 叙述者: ms-MY-YasminNeural
  • 时长: 约142小时
  • 文本来源: 马来西亚马来语议会
  • 句子长度: 2至25个单词

数据集使用指南

Wiki and News 部分

  1. 下载文件:

  2. 获取音频和转录文本的方法: python import json import soundfile as sf

    with open(populated-text.json) as fopen: texts = json.load(fopen)

    index = 0 text = texts[index] y, sr = sf.read(ffemale/{index}.wav)

Parliament 部分

  1. 下载文件:

  2. 获取音频和转录文本的方法: python import json import soundfile as sf

    with open(populated-parliament.json) as fopen: texts = json.load(fopen)

    index = 0 text = texts[index] y, sr = sf.read(ffemale-parliament/{index}.wav)

搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成技术蓬勃发展的背景下,Malay-TTS-Yasmin数据集通过系统化流程构建而成。其核心语料源自马来语维基百科、新闻文本以及马来西亚议会记录,确保了语言材料的权威性与多样性。构建过程中,采用微软Azure的`ms-MY-YasminNeural`语音合成模型,以24kHz采样率生成高质量、高清晰度的语音波形。文本经过筛选,句子长度被控制在2至25个单词之间,以匹配自然口语的表达习惯。最终,语音与对应文本转录被精确对齐并封装,形成了结构化的数据对集合。
特点
该数据集在马来语语音资源领域展现出显著特色。其语音样本均以24kHz的高采样率录制,音质极为纯净,为模型训练提供了理想的声学信号。数据集由“维基与新闻”及“议会”两个独立子集构成,总时长超过240小时,涵盖了从通用领域到特定政治领域的广泛语境。所有语音均由同一女性神经网络语音`YasminNeural`合成,保证了发音风格与音色的一致性,这有助于降低声学建模的复杂度。文本内容源于真实语料,句子长度经过合理规划,有效覆盖了日常与正式场合的语言表达模式。
使用方法
为便于研究人员开展马来语文本到语音的模型训练与评估,该数据集提供了清晰的使用路径。用户需分别下载对应的压缩包与文本索引文件。通过Python环境,利用`soundfile`库读取WAV格式的音频文件,同时使用`json`库加载包含对应文本转录的JSON文件。数据按索引严格对应,确保了音频流与文本标签的精准匹配。这种设计允许用户灵活地按需加载单个样本或批量处理数据,可直接集成至主流深度学习框架的数据管道中,用于声学模型、声码器或端到端语音合成系统的开发。
背景与挑战
背景概述
在语音合成技术迅速发展的背景下,马来语作为东南亚地区的重要语言,其语音资源的系统性构建显得尤为关键。huseinzol05/Malay-TTS-Yasmin数据集由研究人员Husein Zolkepli于2023年前后创建,依托Azure TTS服务中的`ms-MY-YasminNeural`语音模型生成。该数据集整合了马来语维基百科、新闻文本及马来西亚议会记录,总时长超过240小时,旨在为马来语文本到语音合成任务提供高质量、大规模的语音-文本配对资源。其核心研究问题聚焦于解决马来语语音合成数据稀缺的困境,通过自动化合成技术构建标准化语料库,显著推动了马来语自然语言处理领域的发展,为语音模型训练与评估奠定了坚实基础。
当前挑战
该数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上,马来语语音合成需克服语言本身的复杂性,如音素变体、语调韵律的多样性,以及低资源语言中常见的标注不一致性,这些因素增加了合成语音的自然度与准确度提升的难度。构建过程中,挑战源于数据源的异构性:维基百科与新闻文本涵盖广泛主题,但风格相对正式;议会记录则包含大量口语化表达与专业术语,需在预处理中统一文本格式与音频质量。此外,依赖单一合成语音(YasminNeural)虽保证了音色一致性,却可能限制模型对说话人多样性的适应能力,影响其在多场景下的泛化性能。
常用场景
经典使用场景
在语音合成领域,马来语资源相对稀缺,该数据集以其高采样率与纯净音质,为构建端到端文本转语音模型提供了理想训练素材。研究者常利用其大规模对齐的音频-文本对,探索基于深度学习的声学建模与波形生成技术,尤其在多风格语音合成任务中,数据集涵盖新闻与议会语料,有效支持模型学习正式与口语化表达间的声学特征差异。
解决学术问题
该数据集直接应对低资源语言语音合成中数据匮乏的核心挑战,其高质量标注缓解了马来语语音模型开发的数据瓶颈。通过提供覆盖广泛领域的长时对齐语料,它助力解决跨领域语音风格迁移、少样本语音克隆及多说话人建模等关键学术问题,为语言学与计算声学交叉研究奠定了实证基础。
衍生相关工作
基于此数据集衍生的经典工作包括马来语端到端TTS架构优化、轻量级语音合成模型适配,以及结合迁移学习的多语言语音系统构建。相关研究进一步拓展至语音增强、口音转换等领域,催生了如Malaya-Speech工具包等开源项目,持续推动东南亚语言语音技术生态发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作