five

FeruzaSpeech

收藏
arXiv2024-09-23 更新2024-10-04 收录
下载链接:
https://huggingface.co/datasets/k2speech/FeruzaSpeech
下载链接
链接失效反馈
官方服务:
资源简介:
FeruzaSpeech是一个包含60小时乌兹别克语朗读语音的数据集,由塔什干的一位女性母语者录制,包含来自书籍和BBC新闻的短片段。数据集提供西里尔字母和拉丁字母的双重转录,旨在促进乌兹别克语语音识别和语音合成技术的发展。数据集的创建过程包括使用在线工具将文本从西里尔字母转换为拉丁字母,并手动修正语法错误。FeruzaSpeech主要用于增强现有的乌兹别克语语音数据集,特别是在自动语音识别(ASR)模型的训练中,以提高词错误率(WER)。

FeruzaSpeech is a dataset containing 60 hours of Uzbek read speech, recorded by a female native speaker from Tashkent. It includes short audio segments sourced from books and BBC News. The dataset provides dual transcriptions in both Cyrillic and Latin scripts, aiming to promote the development of Uzbek speech recognition and speech synthesis technologies. The dataset creation process involves using an online tool to convert text from Cyrillic to Latin scripts, followed by manual correction of grammatical errors. FeruzaSpeech is mainly used to augment existing Uzbek speech datasets, especially in the training of automatic speech recognition (ASR) models to improve the word error rate (WER).
提供机构:
华盛顿大学
创建时间:
2024-09-23
搜集汇总
数据集介绍
main_image_url
构建方式
FeruzaSpeech数据集由来自乌兹别克斯坦塔什干的一位女性母语者的高质量录音构成,总时长为60小时。录音内容包括从一部经典浪漫小说《Choliqushi》和BBC乌兹别克新闻中摘录的短片段。录音最初以西里尔字母进行,随后通过在线工具转换为拉丁字母,并手动修正了一些语法错误。最终的转录文本同时提供了西里尔字母和拉丁字母的版本,以满足不同用户的需求。
特点
FeruzaSpeech数据集的一个显著特点是其双字母系统支持,即同时提供西里尔字母和拉丁字母的转录文本,这在乌兹别克语数据集中是首次。此外,该数据集由单一母语者录制,无环境噪音,适合用于语音转文本(STT)任务,尤其是在与其他语音语料库结合使用时。数据集的录音片段较长,平均长度为16.39秒,远超其他数据集的片段长度。
使用方法
FeruzaSpeech数据集适用于语音识别(ASR)和语音合成(TTS)技术的开发。用户可以通过HuggingFace平台下载和使用该数据集。数据集被分为开发集(Dev)、测试集(Test)和训练集(Train),其中训练集包含小说《Choliqushi》的录音,而开发集和测试集仅包含BBC新闻的录音。建议用户在训练ASR模型时,将FeruzaSpeech与其他乌兹别克语数据集(如Uzbek Speech Corpus和Common Voice Uzbek Dataset)结合使用,以提升模型的性能。
背景与挑战
背景概述
FeruzaSpeech数据集由Anna Povey和Katherine Povey于2023年创建,旨在填补乌兹别克语语音数据集的空白。该数据集包含60小时的乌兹别克语朗读语音,涵盖书籍和BBC新闻的片段,并提供西里尔字母和拉丁字母的双重转录。作为首个提供两种字母转录的数据集,FeruzaSpeech不仅促进了乌兹别克语语音识别和语音合成技术的发展,还对提升现有数据集如Uzbek Speech Corpus和Common Voice的Word Error Rates(WERs)有显著贡献。
当前挑战
尽管FeruzaSpeech在乌兹别克语语音数据集中具有开创性,但其构建过程中仍面临诸多挑战。首先,数据集仅包含单一女性发言者的录音,缺乏环境噪音,这限制了其在实际应用中的广泛适用性。其次,从西里尔字母到拉丁字母的转换工具存在不准确性,尤其是在处理软音符(ь)时,容易导致信息丢失或错误。此外,数据集的平均段落长度较长,与现有数据集相比,这可能影响其在某些语音识别任务中的表现。
常用场景
经典使用场景
FeruzaSpeech数据集在乌兹别克语语音识别(ASR)和文本到语音(TTS)技术中具有经典应用场景。该数据集通过提供60小时的高质量录音,涵盖了从书籍和BBC新闻中提取的短片段,为训练和评估ASR模型提供了丰富的语料。其独特之处在于同时提供了西里尔字母和拉丁字母的转录,这对于乌兹别克语的语音技术发展尤为重要。
衍生相关工作
FeruzaSpeech数据集的发布催生了一系列相关研究工作,特别是在乌兹别克语语音技术的改进方面。例如,基于该数据集的实验结果,研究人员开发了更高效的ASR模型,如Stateless RNN-T Conformer和Zipformer,这些模型在处理乌兹别克语语音数据时表现出色。此外,FeruzaSpeech还激发了对双字母系统转换工具的进一步研究,以解决语言转换中的细微差异问题。
数据集最近研究
最新研究方向
在乌兹别克语语音识别与合成领域,FeruzaSpeech数据集的引入标志着该语言技术发展的重要里程碑。该数据集不仅提供了60小时的乌兹别克语朗读语音,还包含了西里尔字母和拉丁字母的双重转录,这对于乌兹别克语的语音技术研究具有重要意义。特别是,随着乌兹别克政府在2023年全面转向使用拉丁字母,FeruzaSpeech的双字母转录特性显得尤为重要。研究者们利用该数据集与现有的Common Voice和Uzbek Speech Corpus结合,显著提升了语音识别模型的Word Error Rates(WERs)。此外,FeruzaSpeech的单一女性发音者特性,使其在语音合成(TTS)应用中展现出独特的潜力,尽管这方面的实验仍在探索阶段。未来,随着数据集的进一步扩展和优化,FeruzaSpeech有望在乌兹别克语的语音技术领域发挥更大的作用。
相关研究论文
  • 1
    FeruzaSpeech: A 60 Hour Uzbek Read Speech Corpus with Punctuation, Casing, and Context华盛顿大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作