bond005/sova_rudevices
收藏数据集卡片 for SOVA RuDevices
数据集描述
- 数据集摘要:SOVA Dataset 是一个免费公开的 STT/ASR 数据集。其中一部分是 SOVA RuDevices,这是一个包含约 100 小时 16kHz 俄语实时语音的声学语料库,由 SOVA.ai 团队手动标注。
- 支持的任务和排行榜:
automatic-speech-recognition:该数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并将其转录为书面文本。最常见的评估指标是词错误率(WER)。任务有一个活跃的 Hugging Face 排行榜,可在 Hugging Face Speech Bench 找到。
- 语言:音频为俄语。
数据集结构
数据实例
一个典型的数据点包含音频数据(通常称为 audio)及其转录文本(称为 transcription)。不提供有关说话人和包含转录文本的段落的额外信息。
json
{
"audio": {
"path": "/home/bond005/datasets/sova_rudevices/data/train/00003ec0-1257-42d1-b475-db1cd548092e.wav",
"array": array([ 0.00787354, 0.00735474, 0.00714111, ...,
-0.00018311, -0.00015259, -0.00018311]), dtype=float32),
"sampling_rate": 16000
},
"transcription": "мне получше стало"
}
数据字段
audio:包含下载的音频文件路径、解码后的音频数组和采样率的字典。访问audio列时,音频文件会自动解码并重采样至dataset.features["audio"].sampling_rate。transcription:音频文件的转录文本。
数据分割
该数据集包含三个部分:训练、验证和测试。分割考虑了 SOVA RuDevices 的内部结构,但同一说话人的音频记录可能出现在不同的分割中。
| Train | Validation | Test | |
|---|---|---|---|
| 样本数 | 81607 | 5835 | 5799 |
| 小时数 | 82.4h | 5.9h | 5.8h |
数据集创建
标注过程
所有录制的音频文件都是手动标注的。
个人和敏感信息
数据集包含捐赠其声音的人。您同意不尝试确定此数据集中说话人的身份。
额外信息
数据集策展人
数据集最初由 Egor Zubarev、Timofey Moskalets 和 SOVA.ai 团队创建。
许可信息
引用信息
@misc{sova2021rudevices, author = {Zubarev, Egor and Moskalets, Timofey and SOVA.ai}, title = {SOVA RuDevices Dataset: free public STT/ASR dataset with manually annotated live speech}, publisher = {GitHub}, journal = {GitHub repository}, year = {2021}, howpublished = {url{https://github.com/sovaai/sova-dataset}}, }
贡献
感谢 @bond005 添加此数据集。



