five

bond005/sova_rudevices

收藏
Hugging Face2022-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bond005/sova_rudevices
下载链接
链接失效反馈
官方服务:
资源简介:
SOVA RuDevices数据集是一个免费的公共STT/ASR数据集,包含约100小时的16kHz俄语实时语音,并经过手动标注。数据集由SOVA.ai团队准备,未划分训练、验证和测试子集,但用户自行进行了划分。数据集支持自动语音识别任务,音频为俄语,包含音频文件及其转录文本。数据集的结构包括音频数据和转录文本,分为训练、验证和测试三个子集。数据集的创建者包括Egor Zubarev、Timofey Moskalets和SOVA.ai团队,采用Creative Commons BY 4.0许可证。
提供机构:
bond005
原始信息汇总

数据集卡片 for SOVA RuDevices

数据集描述

  • 数据集摘要:SOVA Dataset 是一个免费公开的 STT/ASR 数据集。其中一部分是 SOVA RuDevices,这是一个包含约 100 小时 16kHz 俄语实时语音的声学语料库,由 SOVA.ai 团队手动标注。
  • 支持的任务和排行榜
    • automatic-speech-recognition:该数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并将其转录为书面文本。最常见的评估指标是词错误率(WER)。任务有一个活跃的 Hugging Face 排行榜,可在 Hugging Face Speech Bench 找到。
  • 语言:音频为俄语。

数据集结构

数据实例

一个典型的数据点包含音频数据(通常称为 audio)及其转录文本(称为 transcription)。不提供有关说话人和包含转录文本的段落的额外信息。 json { "audio": { "path": "/home/bond005/datasets/sova_rudevices/data/train/00003ec0-1257-42d1-b475-db1cd548092e.wav", "array": array([ 0.00787354, 0.00735474, 0.00714111, ..., -0.00018311, -0.00015259, -0.00018311]), dtype=float32), "sampling_rate": 16000 }, "transcription": "мне получше стало" }

数据字段

  • audio:包含下载的音频文件路径、解码后的音频数组和采样率的字典。访问 audio 列时,音频文件会自动解码并重采样至 dataset.features["audio"].sampling_rate
  • transcription:音频文件的转录文本。

数据分割

该数据集包含三个部分:训练、验证和测试。分割考虑了 SOVA RuDevices 的内部结构,但同一说话人的音频记录可能出现在不同的分割中。

Train Validation Test
样本数 81607 5835 5799
小时数 82.4h 5.9h 5.8h

数据集创建

标注过程

所有录制的音频文件都是手动标注的。

个人和敏感信息

数据集包含捐赠其声音的人。您同意不尝试确定此数据集中说话人的身份。

额外信息

数据集策展人

数据集最初由 Egor Zubarev、Timofey Moskalets 和 SOVA.ai 团队创建。

许可信息

Creative Commons BY 4.0

引用信息

@misc{sova2021rudevices, author = {Zubarev, Egor and Moskalets, Timofey and SOVA.ai}, title = {SOVA RuDevices Dataset: free public STT/ASR dataset with manually annotated live speech}, publisher = {GitHub}, journal = {GitHub repository}, year = {2021}, howpublished = {url{https://github.com/sovaai/sova-dataset}}, }

贡献

感谢 @bond005 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作