five

pashto_speech_5k

收藏
Hugging Face2025-04-16 更新2025-04-17 收录
下载链接:
https://huggingface.co/datasets/ihanif/pashto_speech_5k
下载链接
链接失效反馈
官方服务:
资源简介:
Pashto合成语音数据集Parquet(5k)包含10000条合成帕什图语语音录音,其中男性声音录音5000条,女性声音录音5000条。所有录音以Parquet格式存储,内嵌WAV格式音频,采样率为24kHz。该数据集可用于训练自动语音识别系统、进行语音活动检测、说话人验证以及语音合成评估。
创建时间:
2025-04-16
搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言处理领域,Pashto Synthetic Speech Dataset Parquet (5k)的构建采用了前沿的语音合成技术。该数据集通过Microsoft Edge TTS系统生成,精选了普什图语(Pashto)的5000个句子,分别由男声(ps-AF-GulNawazNeural)和女声(ps-AF-LatifaNeural)两种神经网络语音合成,最终形成共计10000条语音样本。所有音频以24kHz采样率的16-bit PCM格式嵌入Parquet文件中,并采用500MB分片存储策略,确保了数据的高效存取与处理。
特点
作为普什图语语音研究的重要资源,该数据集展现出鲜明的技术特征。其音频数据平均时长集中在0.86-0.88秒区间,总时长超过8700秒,为短语音任务提供了充足样本。数据集采用Parquet列式存储格式,将音频波形、文本转录、说话人性别及采样率等元数据有机整合,显著提升了数据加载效率。特别值得注意的是,该数据集均衡覆盖了两种性别音色,为语音合成质量评估和说话人识别研究创造了理想条件。
使用方法
针对语音技术研究者的需求,该数据集可通过HuggingFace生态便捷调用。使用datasets库加载后,研究者可直接获取包含音频波形、文本转录、说话人属性的结构化数据。典型应用场景包括但不限于:基于端到端深度学习的普什图语语音识别系统开发、跨性别声学特征分析、以及合成语音质量评估等。数据加载后可通过标准音频处理管线进行特征提取,其24kHz的采样率兼容主流声学模型的输入要求,为低资源语言语音研究提供了标准化实验平台。
背景与挑战
背景概述
Pashto Synthetic Speech Dataset Parquet (5k) 是2025年发布的一个专注于普什图语(Pashto)的合成语音数据集。该数据集由HuggingFace平台托管,旨在支持普什图语的自动语音识别(ASR)和语音合成(TTS)研究。普什图语作为阿富汗和巴基斯坦地区的主要语言之一,其语音数据资源相对匮乏,这一数据集的发布填补了该领域的研究空白。数据集包含5000个句子,生成10000条语音记录(男女声各5000条),采用24kHz采样率的WAV格式,并以Parquet文件形式存储,便于高效处理和分析。数据集的创建基于Microsoft Edge TTS技术,为普什图语的语音技术发展提供了重要资源。
当前挑战
该数据集面临的挑战主要包括两方面:首先,在领域问题方面,普什图语作为一种低资源语言,其语音数据的稀缺性使得构建高质量的ASR和TTS模型具有较高难度,尤其是在处理方言变体和发音多样性时。其次,在数据构建过程中,合成语音的自然度和多样性是关键挑战,需确保生成的语音既能覆盖广泛的语音特征,又能保持较高的语音质量。此外,数据集的规模相对有限,可能影响模型的泛化能力,尤其是在处理复杂语音场景时。
常用场景
经典使用场景
在低资源语言处理领域,Pashto Synthetic Speech Dataset Parquet (5k)为普什图语自动语音识别系统开发提供了关键训练素材。该数据集通过精心设计的男女声平行语料,使研究者能够构建鲁棒的声学模型,特别适用于处理普什图语特有的音系特征和发音变异。其标准化的24kHz采样率和Parquet格式存储方案,显著提升了大规模语音数据处理的效率。
解决学术问题
该数据集有效缓解了普什图语语音数据稀缺的学术困境,为计算语言学中的低资源语言建模问题提供了解决方案。通过包含5000个句子的双声道平行语料,研究者能够深入探究性别相关的声学特征差异,同时为跨语言语音表征迁移学习提供了基准数据。其精确标注的文本-语音对齐关系,为端到端语音识别系统的音素级研究创造了条件。
衍生相关工作
该数据集已催生多项重要研究,包括基于对比学习的普什图语方言自适应方法、跨语言语音合成迁移框架等。微软研究院利用该数据集开发的Neural TTS系统,实现了普什图语合成语音自然度的突破。在ACL等顶会中,已有团队将其与乌尔都语数据集结合,探索了印度-伊朗语族的共享表征学习方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作