SberDevices/Golos

Name: SberDevices/Golos
Creator: SberDevices
Published: 2022-05-10 08:37:58
License: 暂无描述

Hugging Face2022-05-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SberDevices/Golos

下载链接

链接失效反馈

官方服务：

资源简介：

Golos是一个适用于语音研究的俄语语料库，主要由通过众包平台手动注释的录音文件组成，总时长约为1240小时。数据集结构包括训练和测试文件的数量和时长，以及不同领域的分布。此外，还提供了音频文件的下载链接，包括opus和wav格式，以及基于该语料库构建的声学模型和语言模型。评估部分展示了不同测试集的词错误率（WER）。

Golos is a Russian corpus for speech research, mainly composed of audio recordings manually annotated through crowdsourcing platforms, with a total duration of approximately 1240 hours. The dataset structure covers the counts and durations of training and test files, as well as the distribution across various domains. Additionally, download links for audio files in both OPUS and WAV formats are provided, alongside acoustic models and language models developed based on this corpus. The evaluation section showcases the word error rate (WER) of different test sets.

提供机构：

SberDevices

原始信息汇总

Golos数据集

Golos是一个适用于语音研究的俄语语料库。该数据集主要由在众包平台上手动标注的录音文件组成，总时长约为1240小时。我们已将该语料库及其在此语料库上准备的声音模型免费提供下载。此外，我们还使用开放的Common Crawl语料库创建了3-gram KenLM语言模型。

数据集结构

领域	训练文件数	训练时长（小时）	测试文件数	测试时长（小时）
众包	979,796	1,095	9,994	11.2
远场	124,003	132.4	1,916	1.4
总计	1,103,799	1,227.4	11,910	12.6

下载

opus格式的音频文件

文件名	大小	链接
golos_opus.tar	20.5 GB	https://sc.link/JpD

wav格式的音频文件

包含所有训练转录文本的清单文件在train_crowd9.tar归档文件中列出：

文件名	大小	链接
train_farfield.tar	15.4 GB	https://sc.link/1Z3
train_crowd0.tar	11 GB	https://sc.link/Lrg
train_crowd1.tar	14 GB	https://sc.link/MvQ
train_crowd2.tar	13.2 GB	https://sc.link/NwL
train_crowd3.tar	11.6 GB	https://sc.link/Oxg
train_crowd4.tar	15.8 GB	https://sc.link/Pyz
train_crowd5.tar	13.1 GB	https://sc.link/Qz7
train_crowd6.tar	15.7 GB	https://sc.link/RAL
train_crowd7.tar	12.7 GB	https://sc.link/VG5
train_crowd8.tar	12.2 GB	https://sc.link/WJW
train_crowd9.tar	8.08 GB	https://sc.link/XKk
test.tar	1.3 GB	https://sc.link/Kqr

声学和语言模型

使用QuartzNet15x5架构构建的声学模型，并使用NeMo工具包进行训练。

使用KenLM语言模型工具包创建的三个n-gram语言模型：

基于Common Crawl俄语数据集构建的语言模型
基于Golos训练集构建的语言模型
基于Common Crawl和Golos数据集共同构建的语言模型（50/50）

文件名	大小	链接
QuartzNet15x5_golos.nemo	68 MB	https://sc.link/ZMv
KenLMs.tar	4.8 GB	https://sc.link/YL0

评估

不同测试集的词错误率百分比：

解码器测试集	众包测试	远场测试	MCV<sup>1</sup> dev	MCV<sup>1</sup> test
贪婪解码器	4.389 %	14.949 %	9.314 %	11.278 %
带Common Crawl LM的束搜索解码器	4.709 %	12.503 %	6.341 %	7.976 %
带Golos训练集LM的束搜索解码器	3.548 %	12.384 %	-	-
带Common Crawl和Golos LM的束搜索解码器	3.318 %	11.488 %	6.4 %	8.06 %

<sup>1</sup> Common Voice - Mozilla的倡议，帮助教机器如何真实人说话。

搜集汇总

数据集介绍

背景与挑战

背景概述

Golos是一个俄语语音研究数据集，包含约1240小时的手动标注音频文件，并提供多种格式的音频下载及预训练的语言和声学模型。数据集适用于语音识别研究，并包含详细的评估指标。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集