five

SberDevices/Golos

收藏
Hugging Face2022-05-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SberDevices/Golos
下载链接
链接失效反馈
官方服务:
资源简介:
Golos是一个适用于语音研究的俄语语料库,主要由通过众包平台手动注释的录音文件组成,总时长约为1240小时。数据集结构包括训练和测试文件的数量和时长,以及不同领域的分布。此外,还提供了音频文件的下载链接,包括opus和wav格式,以及基于该语料库构建的声学模型和语言模型。评估部分展示了不同测试集的词错误率(WER)。

Golos is a Russian corpus for speech research, mainly composed of audio recordings manually annotated through crowdsourcing platforms, with a total duration of approximately 1240 hours. The dataset structure covers the counts and durations of training and test files, as well as the distribution across various domains. Additionally, download links for audio files in both OPUS and WAV formats are provided, alongside acoustic models and language models developed based on this corpus. The evaluation section showcases the word error rate (WER) of different test sets.
提供机构:
SberDevices
原始信息汇总

Golos数据集

Golos是一个适用于语音研究的俄语语料库。该数据集主要由在众包平台上手动标注的录音文件组成,总时长约为1240小时。我们已将该语料库及其在此语料库上准备的声音模型免费提供下载。此外,我们还使用开放的Common Crawl语料库创建了3-gram KenLM语言模型。

数据集结构

领域 训练文件数 训练时长(小时) 测试文件数 测试时长(小时)
众包 979,796 1,095 9,994 11.2
远场 124,003 132.4 1,916 1.4
总计 1,103,799 1,227.4 11,910 12.6

下载

opus格式的音频文件

文件名 大小 链接
golos_opus.tar 20.5 GB https://sc.link/JpD

wav格式的音频文件

包含所有训练转录文本的清单文件在train_crowd9.tar归档文件中列出:

文件名 大小 链接
train_farfield.tar 15.4 GB https://sc.link/1Z3
train_crowd0.tar 11 GB https://sc.link/Lrg
train_crowd1.tar 14 GB https://sc.link/MvQ
train_crowd2.tar 13.2 GB https://sc.link/NwL
train_crowd3.tar 11.6 GB https://sc.link/Oxg
train_crowd4.tar 15.8 GB https://sc.link/Pyz
train_crowd5.tar 13.1 GB https://sc.link/Qz7
train_crowd6.tar 15.7 GB https://sc.link/RAL
train_crowd7.tar 12.7 GB https://sc.link/VG5
train_crowd8.tar 12.2 GB https://sc.link/WJW
train_crowd9.tar 8.08 GB https://sc.link/XKk
test.tar 1.3 GB https://sc.link/Kqr

声学和语言模型

使用QuartzNet15x5架构构建的声学模型,并使用NeMo工具包进行训练。

使用KenLM语言模型工具包创建的三个n-gram语言模型:

  • 基于Common Crawl俄语数据集构建的语言模型
  • 基于Golos训练集构建的语言模型
  • 基于Common Crawl和Golos数据集共同构建的语言模型(50/50)
文件名 大小 链接
QuartzNet15x5_golos.nemo 68 MB https://sc.link/ZMv
KenLMs.tar 4.8 GB https://sc.link/YL0

评估

不同测试集的词错误率百分比:

解码器 测试集 众包测试 远场测试 MCV<sup>1</sup> dev MCV<sup>1</sup> test
贪婪解码器 4.389 % 14.949 % 9.314 % 11.278 %
带Common Crawl LM的束搜索解码器 4.709 % 12.503 % 6.341 % 7.976 %
带Golos训练集LM的束搜索解码器 3.548 % 12.384 % - -
带Common Crawl和Golos LM的束搜索解码器 3.318 % 11.488 % 6.4 % 8.06 %

<sup>1</sup> Common Voice - Mozilla的倡议,帮助教机器如何真实人说话。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Golos是一个俄语语音研究数据集,包含约1240小时的手动标注音频文件,并提供多种格式的音频下载及预训练的语言和声学模型。数据集适用于语音识别研究,并包含详细的评估指标。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作