five

argmaxinc/whisperkit-evals_01-30-24

收藏
Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/argmaxinc/whisperkit-evals_01-30-24
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于评估WhisperKit ASR(自动语音识别)系统的性能,特别是基于`librispeech`数据集的评估。评估内容包括不同WhisperKit模型及其优化变体的词错误率(WER)、推理质量(QoI)和文件大小。此外,还比较了不同项目(如WhisperKit、WhisperCpp、WhisperMLX)在使用`openai_whisper-large-v3`模型时的表现。评估结果旨在帮助开发者和企业了解优化或压缩后的Whisper模型在生产环境中的表现,并提供了如何复现这些结果的指导。

该数据集主要用于评估WhisperKit ASR(自动语音识别)系统的性能,特别是基于`librispeech`数据集的评估。评估内容包括不同WhisperKit模型及其优化变体的词错误率(WER)、推理质量(QoI)和文件大小。此外,还比较了不同项目(如WhisperKit、WhisperCpp、WhisperMLX)在使用`openai_whisper-large-v3`模型时的表现。评估结果旨在帮助开发者和企业了解优化或压缩后的Whisper模型在生产环境中的表现,并提供了如何复现这些结果的指导。
提供机构:
argmaxinc
原始信息汇总

WhisperKit Evaluation Results

数据集:librispeech

WhisperKit + openai_whisper-large-v3 (+优化变体)

模型名称 WER QoI (%) 文件大小 (MB)
openai_whisper-large-v3 2.44 100 3100
openai_whisper-large-v3_turbo 2.41 99.8 3100
openai_whisper-large-v3_turbo_1307MB 2.6 97.7 1307
openai_whisper-large-v3_turbo_1049MB 4.81 91 1049
openai_whisper-large-v3_1053MB 4.65 90.8 1053

不同项目 + openai_whisper-large-v3

项目名称 WER 提交哈希 模型格式
WhisperKit 2.44 0f8b4fe Core ML
WhisperCpp 2.36 e72e415 Core ML + GGUF
WhisperMLX 2.69 614de66 MLX (Numpy)

推理质量(QoI)认证

我们相信,严格测量推理质量对于开发者和企业在生产中选择优化或压缩的Whisper模型变体是必要的。当前的测量是在参考模型和优化后的WhisperKit模型之间进行的。我们计划将这种测量的范围扩展到其他Whisper实现,以便开发者可以认证使用WhisperKit与其他实现(或从这些实现迁移)时可能引起的行为变化。

在所有测量中,我们主要关注每个示例的无回归(量化为qoi),这是一个比数据集平均WER更严格的指标。100%的qoi在测试分布上保持完美的向后兼容性,并避免“感知回归”,即在代码/模型更新后每个示例的已知行为发生变化,导致下游代码发散或破坏用户体验(即使数据集平均值可能保持不变)。

结果复现

本页上的结果是由我们的Apple Silicon Mac集群生成的。我们将其用作Github Actions上的自托管运行器作为我们的CI基础设施。由于安全问题,我们无法向公众开放集群。然而,任何Apple Silicon Mac(即使是8GB RAM)都可以用于在本地运行相同的评估作业。参考我们的M2 Ultra设备在不到1小时内完成librispeech + openai/whisper-large-v3评估,无论Whisper实现如何。较旧的Apple Silicon Mac应该在不到1天内完成相同的评估。

术语

  • _turbo:表示存在额外的优化(非压缩),以解锁流式转录,如我们的博客文章中所述。
  • _*MB:表示存在混合位量化。我们选择将压缩规格总结为总文件大小,因为这是生产中开发者关心的内容。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作