ProfASR-Bench
收藏ProfASR-Bench 数据集概述
数据集简介
ProfASR-Bench 是一个面向高风险应用的专业对话自动语音识别(ASR)评估套件,专注于上下文条件化ASR。该数据集旨在揭示**上下文利用差距(CUG)**现象,即现代ASR系统在名义上支持提示,却未能充分利用现成的辅助信息。
核心特征
- 数据规模:包含 3,200 条话语。
- 专业领域:涵盖金融、医学、法律、技术4个专业领域。
- 语音配置:包含4种语音特征(2种美国口音,2种英国口音;2种男性,2种女性)。
- 内容特点:包含丰富的实体内容,带有类型化的命名实体,用于NE-WER评估。
- 实验协议:采用上下文阶梯协议,用于系统性的提示条件实验。
- 音频质量:通过 Kokoro 82M TTS 生成高质量合成语音(Apache 2.0 许可)。
关键发现:上下文利用差距
无上下文条件下各模型的整体WER
| 模型 | 整体 | 金融 | 法律 | 医学 | 技术 |
|---|---|---|---|---|---|
| Whisper Small | 10.0% | 13.3% | 8.5% | 15.8% | 2.3% |
| Whisper Base | 12.1% | 14.6% | 11.1% | 17.9% | 4.7% |
| Whisper Tiny | 14.3% | 15.8% | 13.8% | 21.4% | 6.3% |
| Qwen 2.5 Omni 3B | 24.3% | 15.2% | 35.7% | 38.9% | 7.3% |
上下文阶梯实验结果(Whisper Small)
| 条件 | WER | SER | ΔWER (对比无提示) |
|---|---|---|---|
| 无提示 | 9.98% | 52.56% | — |
| 个人特征 | 9.95% | 52.44% | −0.03 pp |
| 领域+个人特征 | 9.95% | 52.38% | −0.03 pp |
| Oracle | 9.92% | 52.44% | −0.06 pp |
| 对抗性 | 9.95% | 52.50% | −0.03 pp |
轻量级文本上下文对平均WER几乎没有影响——即使在ORACLE上限条件下——这揭示了上下文利用差距(CUG)。
评估协议:上下文阶梯
在5种提示条件下测试ASR系统:
| 条件 | 描述 |
|---|---|
| 无提示 | 控制基线 - 无上下文 |
| 个人特征 | 仅说话者属性(例如“来自多伦多的三十多岁分析师”) |
| 领域+个人特征 | 领域线索 + 说话者属性 |
| Oracle | 以真实文本作为提示(上限参考) |
| 对抗性 | 领域不匹配的提示(鲁棒性测试) |
评估指标
- WER:词错误率(标准)。
- NE-WER:命名实体WER(实体加权)。
- Entity-F1:领域实体的精确率/召回率。
- 切片分析:口音差异(美国 vs 英国)、性别差异。
数据加载与使用
加载数据集
python from datasets import load_dataset dataset = load_dataset("prdeepakbabu/ProfASR-Bench")
数据样本包含以下字段:
audio:音频数据。truth:真实转录文本。prompt:上下文句子。domain:领域(FINANCIAL, MEDICAL, LEGAL, TECHNICAL)。
运行评估
python from evaluation.metrics import compute_wer, compute_ner_wer wer = compute_wer(predictions, references) ne_wer, entity_f1 = compute_ner_wer(predictions, references, named_entities)
仓库结构
ProfASR-Bench/ ├── data_generation/ # 数据集创建流程 ├── evaluation/ # ASR评估代码 ├── configs/ # 配置文件 └── notebooks/ # 演示笔记本
引用
bibtex @article{piskala2025profasrbench, title={ProfASR-Bench: A Professional-Talk ASR Dataset for High-Stakes Applications Exposing the Context-Utilization Gap}, author={Piskala, Deepak Babu}, journal={arXiv preprint arXiv:2512.23686}, year={2025}, url={https://arxiv.org/abs/2512.23686} }
许可信息
数据集采用 Apache 2.0 许可证。合成音频使用 Kokoro 82M TTS 生成(宽松许可)。
相关链接
- 数据集地址:https://huggingface.co/datasets/prdeepakbabu/ProfASR-Bench
- 论文地址:https://arxiv.org/abs/2512.23686
- 作者主页:https://prdeepakbabu.github.io/




