bond005/sova_rudevices

Name: bond005/sova_rudevices
Creator: bond005
Published: 2022-11-01 15:59:30
License: 暂无描述

Hugging Face2022-11-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bond005/sova_rudevices

下载链接

链接失效反馈

官方服务：

资源简介：

SOVA RuDevices数据集是一个免费的公共STT/ASR数据集，包含约100小时的16kHz俄语实时语音，并经过手动标注。数据集由SOVA.ai团队准备，未划分训练、验证和测试子集，但用户自行进行了划分。数据集支持自动语音识别任务，音频为俄语，包含音频文件及其转录文本。数据集的结构包括音频数据和转录文本，分为训练、验证和测试三个子集。数据集的创建者包括Egor Zubarev、Timofey Moskalets和SOVA.ai团队，采用Creative Commons BY 4.0许可证。

提供机构：

bond005

原始信息汇总

数据集卡片 for SOVA RuDevices

数据集描述

数据集摘要：SOVA Dataset 是一个免费公开的 STT/ASR 数据集。其中一部分是 SOVA RuDevices，这是一个包含约 100 小时 16kHz 俄语实时语音的声学语料库，由 SOVA.ai 团队手动标注。
支持的任务和排行榜：
- automatic-speech-recognition：该数据集可用于训练自动语音识别（ASR）模型。模型接收音频文件并将其转录为书面文本。最常见的评估指标是词错误率（WER）。任务有一个活跃的 Hugging Face 排行榜，可在 Hugging Face Speech Bench 找到。
语言：音频为俄语。

数据集结构

数据实例

一个典型的数据点包含音频数据（通常称为 audio）及其转录文本（称为 transcription）。不提供有关说话人和包含转录文本的段落的额外信息。 json { "audio": { "path": "/home/bond005/datasets/sova_rudevices/data/train/00003ec0-1257-42d1-b475-db1cd548092e.wav", "array": array([ 0.00787354, 0.00735474, 0.00714111, ..., -0.00018311, -0.00015259, -0.00018311]), dtype=float32), "sampling_rate": 16000 }, "transcription": "мне получше стало" }

数据字段

audio：包含下载的音频文件路径、解码后的音频数组和采样率的字典。访问 audio 列时，音频文件会自动解码并重采样至 dataset.features["audio"].sampling_rate。
transcription：音频文件的转录文本。

数据分割

该数据集包含三个部分：训练、验证和测试。分割考虑了 SOVA RuDevices 的内部结构，但同一说话人的音频记录可能出现在不同的分割中。

	Train	Validation	Test
样本数	81607	5835	5799
小时数	82.4h	5.9h	5.8h

数据集创建

标注过程

所有录制的音频文件都是手动标注的。

个人和敏感信息

数据集包含捐赠其声音的人。您同意不尝试确定此数据集中说话人的身份。

额外信息

数据集策展人

数据集最初由 Egor Zubarev、Timofey Moskalets 和 SOVA.ai 团队创建。

许可信息

Creative Commons BY 4.0

引用信息

@misc{sova2021rudevices, author = {Zubarev, Egor and Moskalets, Timofey and SOVA.ai}, title = {SOVA RuDevices Dataset: free public STT/ASR dataset with manually annotated live speech}, publisher = {GitHub}, journal = {GitHub repository}, year = {2021}, howpublished = {url{https://github.com/sovaai/sova-dataset}}, }

贡献

感谢 @bond005 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集