Turkish_Speech_Corpus
收藏Hugging Face2025-01-24 更新2025-01-25 收录
下载链接:
https://huggingface.co/datasets/issai/Turkish_Speech_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
TurkicASR项目提供了十种突厥语系语言的多语言语音识别预训练模型和代码,支持的语种包括阿塞拜疆语、巴什基尔语、楚瓦什语、哈萨克语、吉尔吉斯语、萨哈语、土耳其语、鞑靼语、乌兹别克语和维吾尔语。模型使用了KSC、TSC、USC和Common Voice 10.0等多个数据集进行训练。代码库基于ESPnet构建,并提供了预训练模型的下载链接和使用WAV音频文件进行推理的说明。
创建时间:
2025-01-17
原始信息汇总
TurkicASR: 突厥语系多语言语音识别数据集
概述
该数据集为突厥语系的多语言自动语音识别(ASR)系统提供了预训练模型和代码,涵盖了十种突厥语系语言:阿塞拜疆语、巴什基尔语、楚瓦什语、哈萨克语、吉尔吉斯语、雅库特语、土耳其语、鞑靼语、乌兹别克语和维吾尔语。模型使用了多个数据集进行训练,包括KSC、TSC、USC和Common Voice 10.0。
预训练模型
| 模型名称 | 下载链接 |
|---|---|
turkic_languages_model.zip |
https://drive.google.com/file/d/1GtK-OrH3ZRYz2Zc8vf-xndp7R9dic4rV/view?usp=sharing |
all_languages_model.zip |
https://drive.google.com/file/d/15Dc4Uwzqqrw3jkE5-zrgVAyNddGS7onw/view?usp=sharing |
数据集
ASR模型使用了以下数据集进行训练:
- KSC: https://docs.google.com/forms/d/e/1FAIpQLSf_usCjxTvbH_2xhA6slH9FAfjrYVd4OHnr-CUcVVW3TEAscg/viewform
- TSC: https://forms.gle/xjsnC3uVmzRYuWBA8
- USC: https://docs.google.com/forms/d/e/1FAIpQLSeWhxsVe0WlGSQ459sq6--pAqYyEWTI2K6X8UrF357GUvnDQA/viewform
- Common Voice 10.0: https://commonvoice.mozilla.org/en/datasets
引用
Mussakhojayeva, Saida and Dauletbek, Kaisar and Yeshpanov, Rustem and Varol, Huseyin Atakan. (2023). Multilingual Speech Recognition for Turkic Languages. Information. 14. 74. 10.3390/info14020074.
搜集汇总
数据集介绍

构建方式
Turkish_Speech_Corpus数据集的构建依托于多语言自动语音识别(ASR)系统的开发,旨在支持突厥语族的多种语言。该数据集整合了多个来源的语音数据,包括KSC、TSC、USC以及Common Voice 10.0等公开数据集。通过ESPnet框架进行模型训练,数据集涵盖了阿塞拜疆语、巴什基尔语、楚瓦什语、哈萨克语、吉尔吉斯语、萨哈语、土耳其语、鞑靼语、乌兹别克语和维吾尔语等十种突厥语族语言。
特点
Turkish_Speech_Corpus数据集的特点在于其多语言覆盖范围广泛,涵盖了突厥语族中具有代表性的十种语言。数据集不仅提供了高质量的语音样本,还通过预训练模型的形式支持多种语言的语音识别任务。这些模型经过优化,能够处理不同语言的语音特征,为多语言ASR系统的开发提供了坚实的基础。
使用方法
使用Turkish_Speech_Corpus数据集时,用户可以通过下载预训练模型并利用ESPnet框架进行推理。数据集支持WAV格式的音频文件输入,用户可根据需求选择特定语言的模型进行语音识别任务。此外,数据集还提供了详细的代码和模型下载链接,便于研究人员和开发者快速上手并应用于实际场景中。
背景与挑战
背景概述
Turkish_Speech_Corpus数据集由Mussakhojayeva等人于2023年创建,旨在支持突厥语系多语言自动语音识别(ASR)系统的开发。该数据集涵盖了包括阿塞拜疆语、巴什基尔语、楚瓦什语、哈萨克语、吉尔吉斯语、萨哈语、土耳其语、鞑靼语、乌兹别克语和维吾尔语在内的十种突厥语言。研究团队通过整合多个数据集,如KSC、TSC、USC以及Common Voice 10.0,构建了一个多语言ASR模型,并基于ESPnet框架进行训练。该数据集的发布为突厥语系的语言技术研究提供了重要的资源,推动了多语言语音识别领域的发展。
当前挑战
Turkish_Speech_Corpus数据集在构建和应用过程中面临多重挑战。首先,突厥语系语言之间的语音和语法差异显著,如何有效建模这些语言的多样性是一个核心难题。其次,数据集的构建依赖于多个来源的数据,数据质量和标注一致性难以保证,这对模型的训练效果产生了直接影响。此外,尽管Common Voice等开源数据集提供了丰富的语音资源,但其覆盖的语言种类和样本量仍不足以满足多语言ASR系统的需求,数据稀缺性问题尤为突出。最后,如何在多语言环境下实现高效的模型迁移和泛化,也是该领域亟待解决的技术挑战。
常用场景
经典使用场景
Turkish_Speech_Corpus数据集在语音识别领域具有广泛的应用,特别是在多语言自动语音识别(ASR)系统的开发中。该数据集涵盖了包括土耳其语在内的多种突厥语系语言,为研究人员提供了一个丰富的语音数据资源。通过该数据集,研究人员可以训练和优化多语言ASR模型,从而实现对多种突厥语系语言的高效识别。
解决学术问题
Turkish_Speech_Corpus数据集解决了多语言语音识别中的关键问题,特别是在资源稀缺的突厥语系语言中。通过整合多个数据集,如KSC、TSC、USC和Common Voice 10.0,该数据集为研究人员提供了足够的训练数据,使得在多语言环境下开发高精度的ASR系统成为可能。这不仅推动了语音识别技术的发展,还为语言学研究和跨语言交流提供了有力支持。
衍生相关工作
基于Turkish_Speech_Corpus数据集,研究人员已经开发了多个经典的多语言ASR模型和系统。例如,TurkicASR项目利用该数据集训练了支持十种突厥语系语言的预训练模型,并在ESPnet框架下实现了高效的语音识别。这些工作不仅推动了多语言语音识别技术的发展,还为后续研究提供了宝贵的参考和基础。此外,该数据集还激发了更多关于多语言语音识别的研究,如跨语言迁移学习和多语言语音合成等。
以上内容由遇见数据集搜集并总结生成



