five

argmaxinc/whisperkit-0.7.0-evals

收藏
Hugging Face2024-05-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/argmaxinc/whisperkit-0.7.0-evals
下载链接
链接失效反馈
官方服务:
资源简介:
earnings22数据集包含超过1小时的英语企业财报电话录音,具有多种口音。该数据集的长音频特性(>1小时/片段)和语音密度旨在对VAD的准确性进行压力测试。如果VAD不准确,WhisperKit会将语音片段呈现给Whisper模型,这些片段可能从语音中间开始,导致Whisper模型产生更多的幻觉。

earnings22数据集包含超过1小时的英语企业财报电话录音,具有多种口音。该数据集的长音频特性(>1小时/片段)和语音密度旨在对VAD的准确性进行压力测试。如果VAD不准确,WhisperKit会将语音片段呈现给Whisper模型,这些片段可能从语音中间开始,导致Whisper模型产生更多的幻觉。
提供机构:
argmaxinc
原始信息汇总

WhisperKit ASR Evaluation Results

数据集概述

  • 数据集名称: earnings22-12hours
  • 描述: 包含约12小时的英语企业盈利电话录音,具有多种口音,每个音频片段时长超过1小时。

评估细节

使用VAD

模型版本 WER (↓) QoI (↑) 文件大小 (MB)
large-v3_turbo 11.97 100 3100
large-v2 12.4 38.5 3100
distil-large-v3 12.32 23.1 1510
small.en 13.08 15.4 483
small 13.27 15.4 483
base.en 15.34 7.7 145
base 16.62 7.7 145
tiny.en 19.02 0 66
tiny 21.21 0 66

不使用VAD

模型版本 WER (↓) QoI (↑) 文件大小 (MB)
large-v3_turbo 11.95 100 3100
large-v2 13.76 15.4 3100
distil-large-v3 13.03 15.4 1510
small.en 15.39 7.7 483
small 16.27 7.7 483
base.en 19.62 0 145
base 25.26 0 145
tiny.en 23.79 0 66
tiny 31.48 0 66
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作