pashto_speech_5k

Hugging Face2025-04-16 更新2025-04-17 收录

下载链接：

https://huggingface.co/datasets/ihanif/pashto_speech_5k

下载链接

链接失效反馈

官方服务：

资源简介：

Pashto合成语音数据集Parquet（5k）包含10000条合成帕什图语语音录音，其中男性声音录音5000条，女性声音录音5000条。所有录音以Parquet格式存储，内嵌WAV格式音频，采样率为24kHz。该数据集可用于训练自动语音识别系统、进行语音活动检测、说话人验证以及语音合成评估。

创建时间：

2025-04-16

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，Pashto Synthetic Speech Dataset Parquet (5k)的构建采用了前沿的语音合成技术。该数据集通过Microsoft Edge TTS系统生成，精选了普什图语（Pashto）的5000个句子，分别由男声（ps-AF-GulNawazNeural）和女声（ps-AF-LatifaNeural）两种神经网络语音合成，最终形成共计10000条语音样本。所有音频以24kHz采样率的16-bit PCM格式嵌入Parquet文件中，并采用500MB分片存储策略，确保了数据的高效存取与处理。

特点

作为普什图语语音研究的重要资源，该数据集展现出鲜明的技术特征。其音频数据平均时长集中在0.86-0.88秒区间，总时长超过8700秒，为短语音任务提供了充足样本。数据集采用Parquet列式存储格式，将音频波形、文本转录、说话人性别及采样率等元数据有机整合，显著提升了数据加载效率。特别值得注意的是，该数据集均衡覆盖了两种性别音色，为语音合成质量评估和说话人识别研究创造了理想条件。

使用方法

针对语音技术研究者的需求，该数据集可通过HuggingFace生态便捷调用。使用datasets库加载后，研究者可直接获取包含音频波形、文本转录、说话人属性的结构化数据。典型应用场景包括但不限于：基于端到端深度学习的普什图语语音识别系统开发、跨性别声学特征分析、以及合成语音质量评估等。数据加载后可通过标准音频处理管线进行特征提取，其24kHz的采样率兼容主流声学模型的输入要求，为低资源语言语音研究提供了标准化实验平台。

背景与挑战

背景概述

Pashto Synthetic Speech Dataset Parquet (5k) 是2025年发布的一个专注于普什图语（Pashto）的合成语音数据集。该数据集由HuggingFace平台托管，旨在支持普什图语的自动语音识别（ASR）和语音合成（TTS）研究。普什图语作为阿富汗和巴基斯坦地区的主要语言之一，其语音数据资源相对匮乏，这一数据集的发布填补了该领域的研究空白。数据集包含5000个句子，生成10000条语音记录（男女声各5000条），采用24kHz采样率的WAV格式，并以Parquet文件形式存储，便于高效处理和分析。数据集的创建基于Microsoft Edge TTS技术，为普什图语的语音技术发展提供了重要资源。

当前挑战

该数据集面临的挑战主要包括两方面：首先，在领域问题方面，普什图语作为一种低资源语言，其语音数据的稀缺性使得构建高质量的ASR和TTS模型具有较高难度，尤其是在处理方言变体和发音多样性时。其次，在数据构建过程中，合成语音的自然度和多样性是关键挑战，需确保生成的语音既能覆盖广泛的语音特征，又能保持较高的语音质量。此外，数据集的规模相对有限，可能影响模型的泛化能力，尤其是在处理复杂语音场景时。

常用场景

经典使用场景

在低资源语言处理领域，Pashto Synthetic Speech Dataset Parquet (5k)为普什图语自动语音识别系统开发提供了关键训练素材。该数据集通过精心设计的男女声平行语料，使研究者能够构建鲁棒的声学模型，特别适用于处理普什图语特有的音系特征和发音变异。其标准化的24kHz采样率和Parquet格式存储方案，显著提升了大规模语音数据处理的效率。

解决学术问题

该数据集有效缓解了普什图语语音数据稀缺的学术困境，为计算语言学中的低资源语言建模问题提供了解决方案。通过包含5000个句子的双声道平行语料，研究者能够深入探究性别相关的声学特征差异，同时为跨语言语音表征迁移学习提供了基准数据。其精确标注的文本-语音对齐关系，为端到端语音识别系统的音素级研究创造了条件。

衍生相关工作

该数据集已催生多项重要研究，包括基于对比学习的普什图语方言自适应方法、跨语言语音合成迁移框架等。微软研究院利用该数据集开发的Neural TTS系统，实现了普什图语合成语音自然度的突破。在ACL等顶会中，已有团队将其与乌尔都语数据集结合，探索了印度-伊朗语族的共享表征学习方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集