argmaxinc/whisperkit-evals_01-30-24
收藏Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/argmaxinc/whisperkit-evals_01-30-24
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于评估WhisperKit ASR(自动语音识别)系统的性能,特别是基于`librispeech`数据集的评估。评估内容包括不同WhisperKit模型及其优化变体的词错误率(WER)、推理质量(QoI)和文件大小。此外,还比较了不同项目(如WhisperKit、WhisperCpp、WhisperMLX)在使用`openai_whisper-large-v3`模型时的表现。评估结果旨在帮助开发者和企业了解优化或压缩后的Whisper模型在生产环境中的表现,并提供了如何复现这些结果的指导。
该数据集主要用于评估WhisperKit ASR(自动语音识别)系统的性能,特别是基于`librispeech`数据集的评估。评估内容包括不同WhisperKit模型及其优化变体的词错误率(WER)、推理质量(QoI)和文件大小。此外,还比较了不同项目(如WhisperKit、WhisperCpp、WhisperMLX)在使用`openai_whisper-large-v3`模型时的表现。评估结果旨在帮助开发者和企业了解优化或压缩后的Whisper模型在生产环境中的表现,并提供了如何复现这些结果的指导。
提供机构:
argmaxinc
原始信息汇总
WhisperKit Evaluation Results
数据集:librispeech
WhisperKit + openai_whisper-large-v3 (+优化变体)
| 模型名称 | WER | QoI (%) | 文件大小 (MB) |
|---|---|---|---|
| openai_whisper-large-v3 | 2.44 | 100 | 3100 |
| openai_whisper-large-v3_turbo | 2.41 | 99.8 | 3100 |
| openai_whisper-large-v3_turbo_1307MB | 2.6 | 97.7 | 1307 |
| openai_whisper-large-v3_turbo_1049MB | 4.81 | 91 | 1049 |
| openai_whisper-large-v3_1053MB | 4.65 | 90.8 | 1053 |
不同项目 + openai_whisper-large-v3
| 项目名称 | WER | 提交哈希 | 模型格式 |
|---|---|---|---|
| WhisperKit | 2.44 | 0f8b4fe | Core ML |
| WhisperCpp | 2.36 | e72e415 | Core ML + GGUF |
| WhisperMLX | 2.69 | 614de66 | MLX (Numpy) |
推理质量(QoI)认证
我们相信,严格测量推理质量对于开发者和企业在生产中选择优化或压缩的Whisper模型变体是必要的。当前的测量是在参考模型和优化后的WhisperKit模型之间进行的。我们计划将这种测量的范围扩展到其他Whisper实现,以便开发者可以认证使用WhisperKit与其他实现(或从这些实现迁移)时可能引起的行为变化。
在所有测量中,我们主要关注每个示例的无回归(量化为qoi),这是一个比数据集平均WER更严格的指标。100%的qoi在测试分布上保持完美的向后兼容性,并避免“感知回归”,即在代码/模型更新后每个示例的已知行为发生变化,导致下游代码发散或破坏用户体验(即使数据集平均值可能保持不变)。
结果复现
本页上的结果是由我们的Apple Silicon Mac集群生成的。我们将其用作Github Actions上的自托管运行器作为我们的CI基础设施。由于安全问题,我们无法向公众开放集群。然而,任何Apple Silicon Mac(即使是8GB RAM)都可以用于在本地运行相同的评估作业。参考我们的M2 Ultra设备在不到1小时内完成librispeech + openai/whisper-large-v3评估,无论Whisper实现如何。较旧的Apple Silicon Mac应该在不到1天内完成相同的评估。
术语
_turbo:表示存在额外的优化(非压缩),以解锁流式转录,如我们的博客文章中所述。_*MB:表示存在混合位量化。我们选择将压缩规格总结为总文件大小,因为这是生产中开发者关心的内容。



