argmaxinc/whisperkit-0.7.0-evals
收藏Hugging Face2024-05-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/argmaxinc/whisperkit-0.7.0-evals
下载链接
链接失效反馈官方服务:
资源简介:
earnings22数据集包含超过1小时的英语企业财报电话录音,具有多种口音。该数据集的长音频特性(>1小时/片段)和语音密度旨在对VAD的准确性进行压力测试。如果VAD不准确,WhisperKit会将语音片段呈现给Whisper模型,这些片段可能从语音中间开始,导致Whisper模型产生更多的幻觉。
earnings22数据集包含超过1小时的英语企业财报电话录音,具有多种口音。该数据集的长音频特性(>1小时/片段)和语音密度旨在对VAD的准确性进行压力测试。如果VAD不准确,WhisperKit会将语音片段呈现给Whisper模型,这些片段可能从语音中间开始,导致Whisper模型产生更多的幻觉。
提供机构:
argmaxinc
原始信息汇总
WhisperKit ASR Evaluation Results
数据集概述
- 数据集名称:
earnings22-12hours - 描述: 包含约12小时的英语企业盈利电话录音,具有多种口音,每个音频片段时长超过1小时。
评估细节
使用VAD
| 模型版本 | WER (↓) | QoI (↑) | 文件大小 (MB) |
|---|---|---|---|
| large-v3_turbo | 11.97 | 100 | 3100 |
| large-v2 | 12.4 | 38.5 | 3100 |
| distil-large-v3 | 12.32 | 23.1 | 1510 |
| small.en | 13.08 | 15.4 | 483 |
| small | 13.27 | 15.4 | 483 |
| base.en | 15.34 | 7.7 | 145 |
| base | 16.62 | 7.7 | 145 |
| tiny.en | 19.02 | 0 | 66 |
| tiny | 21.21 | 0 | 66 |
不使用VAD
| 模型版本 | WER (↓) | QoI (↑) | 文件大小 (MB) |
|---|---|---|---|
| large-v3_turbo | 11.95 | 100 | 3100 |
| large-v2 | 13.76 | 15.4 | 3100 |
| distil-large-v3 | 13.03 | 15.4 | 1510 |
| small.en | 15.39 | 7.7 | 483 |
| small | 16.27 | 7.7 | 483 |
| base.en | 19.62 | 0 | 145 |
| base | 25.26 | 0 | 145 |
| tiny.en | 23.79 | 0 | 66 |
| tiny | 31.48 | 0 | 66 |



