kjetMol/ArtificiallyNoisySpeechTranscriptions
收藏Hugging Face2024-05-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/kjetMol/ArtificiallyNoisySpeechTranscriptions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自Språkbanken提供的挪威语语料库中nb_samtale子集的语音文件转录。这些转录文件经过了受控的噪声添加,以模拟不同的声学环境。原始音频的持续时间为24秒到27秒,格式为WAV,共有9个文件。转录部分测试了3个模型、4种噪声类型和16个噪声级别,总文件数为1682个。单词错误率(WER)用于评估语音识别系统在不同噪声条件下的性能,计算基于0%噪声添加的转录作为基准。
该数据集包含来自Språkbanken提供的挪威语语料库中nb_samtale子集的语音文件转录。这些转录文件经过了受控的噪声添加,以模拟不同的声学环境。原始音频的持续时间为24秒到27秒,格式为WAV,共有9个文件。转录部分测试了3个模型、4种噪声类型和16个噪声级别,总文件数为1682个。单词错误率(WER)用于评估语音识别系统在不同噪声条件下的性能,计算基于0%噪声添加的转录作为基准。
提供机构:
kjetMol
原始信息汇总
数据集概述
数据来源
- 语言:挪威语
- 来源:Språkbanken 提供的 nb_samtale 子集
数据内容
-
原始音频属性:
- 时长:24秒至27秒
- 格式:WAV
- 文件数量:9个
-
转录信息:
- 测试模型数量:3个
- 测试噪音类型:4种
- 噪音级别数量:16个
- 总文件数量:1682个
评估指标
- 词错误率(WER):基于未添加噪音的转录文本作为基准,评估在不同噪音条件下的语音识别系统性能。



