argmaxinc/whisperkit-evals_01-30-24

Name: argmaxinc/whisperkit-evals_01-30-24
Creator: argmaxinc
Published: 2024-02-23 09:33:48
License: 暂无描述

Hugging Face2024-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/argmaxinc/whisperkit-evals_01-30-24

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于评估WhisperKit ASR（自动语音识别）系统的性能，特别是基于`librispeech`数据集的评估。评估内容包括不同WhisperKit模型及其优化变体的词错误率（WER）、推理质量（QoI）和文件大小。此外，还比较了不同项目（如WhisperKit、WhisperCpp、WhisperMLX）在使用`openai_whisper-large-v3`模型时的表现。评估结果旨在帮助开发者和企业了解优化或压缩后的Whisper模型在生产环境中的表现，并提供了如何复现这些结果的指导。

提供机构：

argmaxinc

原始信息汇总

WhisperKit Evaluation Results

数据集：`librispeech`

WhisperKit + `openai_whisper-large-v3` (+优化变体)

模型名称	WER	QoI (%)	文件大小 (MB)
openai_whisper-large-v3	2.44	100	3100
openai_whisper-large-v3_turbo	2.41	99.8	3100
openai_whisper-large-v3_turbo_1307MB	2.6	97.7	1307
openai_whisper-large-v3_turbo_1049MB	4.81	91	1049
openai_whisper-large-v3_1053MB	4.65	90.8	1053

不同项目 + `openai_whisper-large-v3`

项目名称	WER	提交哈希	模型格式
WhisperKit	2.44	0f8b4fe	Core ML
WhisperCpp	2.36	e72e415	Core ML + GGUF
WhisperMLX	2.69	614de66	MLX (Numpy)

推理质量（QoI）认证

我们相信，严格测量推理质量对于开发者和企业在生产中选择优化或压缩的Whisper模型变体是必要的。当前的测量是在参考模型和优化后的WhisperKit模型之间进行的。我们计划将这种测量的范围扩展到其他Whisper实现，以便开发者可以认证使用WhisperKit与其他实现（或从这些实现迁移）时可能引起的行为变化。

在所有测量中，我们主要关注每个示例的无回归（量化为qoi），这是一个比数据集平均WER更严格的指标。100%的qoi在测试分布上保持完美的向后兼容性，并避免“感知回归”，即在代码/模型更新后每个示例的已知行为发生变化，导致下游代码发散或破坏用户体验（即使数据集平均值可能保持不变）。

结果复现

本页上的结果是由我们的Apple Silicon Mac集群生成的。我们将其用作Github Actions上的自托管运行器作为我们的CI基础设施。由于安全问题，我们无法向公众开放集群。然而，任何Apple Silicon Mac（即使是8GB RAM）都可以用于在本地运行相同的评估作业。参考我们的M2 Ultra设备在不到1小时内完成librispeech + openai/whisper-large-v3评估，无论Whisper实现如何。较旧的Apple Silicon Mac应该在不到1天内完成相同的评估。

术语

_turbo：表示存在额外的优化（非压缩），以解锁流式转录，如我们的博客文章中所述。
_*MB：表示存在混合位量化。我们选择将压缩规格总结为总文件大小，因为这是生产中开发者关心的内容。

5,000+

优质数据集

54 个

任务类型

进入经典数据集