AsoSoft Speech Corpus

github2022-03-09 更新2024-05-31 收录

下载链接：

https://github.com/AsoSoft/AsoSoft-Speech-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

AsoSoft语音语料库是用于中库尔德语语音处理任务的数据集，如语音识别、说话人识别、性别识别和语音分析。该数据集包含约30小时的语音记录和转录，用于支持自然语言处理研究和应用，如自动语音识别和说话人识别。

The AsoSoft Speech Corpus is a dataset designed for Central Kurdish language speech processing tasks, such as speech recognition, speaker identification, gender identification, and speech analysis. This dataset comprises approximately 30 hours of audio recordings and transcriptions, aimed at supporting research and applications in natural language processing, including automatic speech recognition and speaker identification.

创建时间：

2022-03-05

原始信息汇总

数据集概述

数据集名称

AsoSoft Speech Corpus

数据集目的

用于Kurdish语言的语音识别、说话人识别、语音命令软件和工具的开发。

数据集内容

语言: 中央Kurdish
数据量: 约30小时的语音数据，已录音并转录。
数据结构: 包含45位说话者，每位说话者发出72句相同的句子，覆盖句子1至70及句子699至700。最后两句包含所有中央Kurdish音素。
文件格式:
- .wav: 22.05 kHz, 16bit, mono
- .wrd: Kurdish字母转录
- .phn: ASCII格式音标转录

元数据

说话者信息:
- 麦克风类型
- 噪音水平
- 性别
- 方言/城市
- 年龄
- 教育程度
- 长度（总和及平均）

文件命名规则

SpeakerID(3digits) + Gender + RecordingDevice(Laptop/PC/Mobile) + Mic + SentenceID(3digits)

引用信息

参考文献: Veisi, Hadi et al. (2021). "Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon". arXiv preprint arXiv:2102.07412.

搜集汇总

数据集介绍

构建方式

AsoSoft Speech Corpus的构建始于对库尔德语（中央库尔德语）语音数据的系统收集与标注。该数据集通过人工设计句子，确保覆盖中央库尔德语的所有音素特征，并由45名发音者录制了相同的72个句子。录音设备包括USB麦克风、笔记本电脑内置麦克风等，录音环境考虑了噪声水平，以确保数据的多样性和实用性。所有录音均以22.05 kHz、16位单声道格式保存，并附有库尔德字母的文本转录和ASCII格式的音标标注。

特点

AsoSoft Speech Corpus的特点在于其专注于中央库尔德语的语音处理任务，涵盖了语音识别、说话人识别、性别识别及音素分析等多个应用场景。数据集包含45名发音者的录音，每位发音者录制了72个句子，其中前70个句子为通用句子，后两个句子则覆盖了中央库尔德语的所有音素。此外，数据集提供了详细的元数据，包括发音者的性别、年龄、方言、教育背景等信息，为研究库尔德语方言差异及语音特征提供了丰富的基础。

使用方法

AsoSoft Speech Corpus的使用方法较为直观，用户可通过下载数据集获取每位发音者的录音文件（.wav）、文本转录文件（.wrd）及音标标注文件（.phn）。文件名格式明确，包含发音者ID、性别、录音设备、麦克风类型及句子ID等信息，便于用户快速定位所需数据。该数据集适用于语音识别、说话人识别、性别识别及音素分析等任务，尤其适合研究中央库尔德语的语音特征及方言差异。使用该数据集时，需引用相关文献以尊重数据提供者的知识产权。

背景与挑战

背景概述

AsoSoft Speech Corpus是由AsoSoft公司于2016年创建的，旨在为库尔德语（中央库尔德语）提供语音识别、说话人识别及语音命令处理等自然语言处理任务的基础数据。该数据集由约30小时的语音数据构成，涵盖了45位说话者的语音样本，每位说话者朗读了72个句子，这些句子经过精心设计，以反映中央库尔德语的语音特征。AsoSoft公司是首个专注于库尔德语语音识别领域的公司，其研究成果对库尔德语的自动语音识别、说话人识别及语音学研究具有重要影响。

当前挑战

AsoSoft Speech Corpus在构建过程中面临的主要挑战包括库尔德语资源的稀缺性以及语音数据的多样性。由于库尔德语在自然语言处理领域的研究相对较少，缺乏足够的语音数据和相关资源，这为数据集的构建带来了显著困难。此外，库尔德语内部存在多种方言，如何在数据集中准确捕捉并反映这些方言的语音特征，也是一个重要的技术挑战。在应用层面，该数据集需要解决库尔德语语音识别中的高噪声环境下的语音处理问题，以及如何通过有限的语音数据实现高效的说话人识别和性别识别任务。

常用场景

经典使用场景

AsoSoft Speech Corpus 数据集在库尔德语（中央库尔德语）的自动语音识别、说话人识别、性别识别及语音分析等领域具有广泛应用。该数据集通过精心设计的句子，覆盖了中央库尔德语的所有音素，为研究者提供了一个标准化的语音处理平台。

衍生相关工作

基于 AsoSoft Speech Corpus，研究者们开发了多个库尔德语语音处理系统，如 Jira 语音识别系统。这些工作不仅验证了数据集的实用性，还进一步推动了库尔德语在语音技术领域的研究和应用。

数据集最近研究