five

argmaxinc/whisperkit-evals

收藏
Hugging Face2025-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/argmaxinc/whisperkit-evals
下载链接
链接失效反馈
官方服务:
资源简介:
`librispeech`数据集包含5小时的短音频片段,用于测试短文本转录质量;`earnings22`数据集包含120小时的英语收益电话录音,用于测试长文本转录质量。

The `librispeech` dataset contains 5 hours of short audio clips for testing short-form transcription quality; the `earnings22` dataset contains 120 hours of English earnings call recordings for testing long-form transcription quality.
提供机构:
argmaxinc
原始信息汇总

WhisperKit ASR Evaluation Results

数据集概述

数据集: librispeech

  • 描述: 短音频 (<30秒/片段) - 5小时英语有声书片段
  • 模型评估结果:
模型名称 WER (↓) QoI (↑) 文件大小 (MB) 代码提交
large-v2 (WhisperOpenAIAPI) 2.35 100 3100 N/A
large-v2 2.77 96.6 3100 Link
large-v2_949MB 2.4 94.6 949 Link
large-v2_turbo 2.76 96.6 3100 Link
large-v2_turbo_955MB 2.41 94.6 955 Link
large-v3 2.04 95.2 3100 Link
large-v3_turbo 2.03 95.4 3100 Link
large-v3_turbo_954MB 2.47 93.9 954 Link
distil-large-v3 2.47 89.7 1510 Link
distil-large-v3_594MB 2.96 85.4 594 Link
distil-large-v3_turbo 2.47 89.7 1510 Link
distil-large-v3_turbo_600MB 2.78 86.2 600 Link
small.en 3.12 85.8 483 Link
small 3.45 83 483 Link
base.en 3.98 75.3 145 Link
base 4.97 67.2 145 Link
tiny.en 5.61 63.9 66 Link
tiny 7.47 52.5 66 Link

数据集: earnings22

  • 描述: 长音频 (>1小时/片段) - 120小时英语财报电话录音,包含多种口音
  • 模型评估结果:
模型名称 WER (↓) QoI (↑) 文件大小 (MB) 代码提交
large-v2 (WhisperOpenAIAPI) 16.27 100 3100 N/A
large-v3 15.17 58.5 3100 Link
distil-large-v3 15.28 46.3 1510 Link
base.en 23.49 6.5 145 Link
tiny.en 28.64 5.7 66 Link
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作