five

ProfASR-Bench

收藏
github2025-12-31 更新2026-01-24 收录
下载链接:
https://github.com/prdeepakbabu/ProfASR-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
ProfASR-Bench是一个用于高风险应用(金融、医学、法律、技术)的专业语音识别评估基准,揭示了现代ASR系统在利用上下文信息方面的不足。包含3,200个跨4个专业领域的语音片段,具有丰富的实体内容和高质量的合成语音。

ProfASR-Bench is a professional speech recognition evaluation benchmark for high-stakes applications including finance, medicine, law and technology. It reveals the deficiencies of modern ASR systems in leveraging contextual information. The benchmark contains 3,200 speech segments across four professional domains, with rich entity content and high-quality synthesized speech.
创建时间:
2025-12-29
原始信息汇总

ProfASR-Bench 数据集概述

数据集简介

ProfASR-Bench 是一个面向高风险应用的专业对话自动语音识别(ASR)评估套件,专注于上下文条件化ASR。该数据集旨在揭示**上下文利用差距(CUG)**现象,即现代ASR系统在名义上支持提示,却未能充分利用现成的辅助信息。

核心特征

  • 数据规模:包含 3,200 条话语
  • 专业领域:涵盖金融、医学、法律、技术4个专业领域。
  • 语音配置:包含4种语音特征(2种美国口音,2种英国口音;2种男性,2种女性)。
  • 内容特点:包含丰富的实体内容,带有类型化的命名实体,用于NE-WER评估。
  • 实验协议:采用上下文阶梯协议,用于系统性的提示条件实验。
  • 音频质量:通过 Kokoro 82M TTS 生成高质量合成语音(Apache 2.0 许可)。

关键发现:上下文利用差距

无上下文条件下各模型的整体WER

模型 整体 金融 法律 医学 技术
Whisper Small 10.0% 13.3% 8.5% 15.8% 2.3%
Whisper Base 12.1% 14.6% 11.1% 17.9% 4.7%
Whisper Tiny 14.3% 15.8% 13.8% 21.4% 6.3%
Qwen 2.5 Omni 3B 24.3% 15.2% 35.7% 38.9% 7.3%

上下文阶梯实验结果(Whisper Small)

条件 WER SER ΔWER (对比无提示)
无提示 9.98% 52.56%
个人特征 9.95% 52.44% −0.03 pp
领域+个人特征 9.95% 52.38% −0.03 pp
Oracle 9.92% 52.44% −0.06 pp
对抗性 9.95% 52.50% −0.03 pp

轻量级文本上下文对平均WER几乎没有影响——即使在ORACLE上限条件下——这揭示了上下文利用差距(CUG)。

评估协议:上下文阶梯

在5种提示条件下测试ASR系统:

条件 描述
无提示 控制基线 - 无上下文
个人特征 仅说话者属性(例如“来自多伦多的三十多岁分析师”)
领域+个人特征 领域线索 + 说话者属性
Oracle 以真实文本作为提示(上限参考)
对抗性 领域不匹配的提示(鲁棒性测试)

评估指标

  • WER:词错误率(标准)。
  • NE-WER:命名实体WER(实体加权)。
  • Entity-F1:领域实体的精确率/召回率。
  • 切片分析:口音差异(美国 vs 英国)、性别差异。

数据加载与使用

加载数据集

python from datasets import load_dataset dataset = load_dataset("prdeepakbabu/ProfASR-Bench")

数据样本包含以下字段:

  • audio:音频数据。
  • truth:真实转录文本。
  • prompt:上下文句子。
  • domain:领域(FINANCIAL, MEDICAL, LEGAL, TECHNICAL)。

运行评估

python from evaluation.metrics import compute_wer, compute_ner_wer wer = compute_wer(predictions, references) ne_wer, entity_f1 = compute_ner_wer(predictions, references, named_entities)

仓库结构

ProfASR-Bench/ ├── data_generation/ # 数据集创建流程 ├── evaluation/ # ASR评估代码 ├── configs/ # 配置文件 └── notebooks/ # 演示笔记本

引用

bibtex @article{piskala2025profasrbench, title={ProfASR-Bench: A Professional-Talk ASR Dataset for High-Stakes Applications Exposing the Context-Utilization Gap}, author={Piskala, Deepak Babu}, journal={arXiv preprint arXiv:2512.23686}, year={2025}, url={https://arxiv.org/abs/2512.23686} }

许可信息

数据集采用 Apache 2.0 许可证。合成音频使用 Kokoro 82M TTS 生成(宽松许可)。

相关链接

  • 数据集地址:https://huggingface.co/datasets/prdeepakbabu/ProfASR-Bench
  • 论文地址:https://arxiv.org/abs/2512.23686
  • 作者主页:https://prdeepakbabu.github.io/
搜集汇总
数据集介绍
main_image_url
构建方式
在自动语音识别技术日益渗透到高风险的金融、医疗、法律和技术等专业领域的背景下,ProfASR-Bench数据集的构建遵循了严谨的合成生成流程。其核心文本内容通过大型语言模型生成,覆盖了四个专业领域内富含命名实体的对话语句。随后,利用高质量的Kokoro 82M文本转语音系统,结合精心设计的四种语音特征,将文本合成为音频数据。整个构建过程特别引入了“上下文阶梯”协议,系统性地为每条样本生成不同层级的上下文提示信息,从而为研究上下文条件化语音识别提供了结构化的实验基础。
特点
该数据集作为专业领域语音识别的评估基准,展现出若干鲜明特征。其内容涵盖金融、医疗、法律和技术四大高价值领域,共计包含3200条富含命名实体的语句。数据集模拟了真实世界的多样性,集成了两种美国口音与两种英国口音,并平衡了性别分布。最为关键的是,它通过精心设计的“上下文阶梯”协议,系统地揭示了现代可提示语音识别系统中存在的“上下文利用鸿沟”现象,即系统在拥有可用侧信息时未能有效利用。此外,数据集提供了实体感知的评估指标,如NE-WER和实体F1分数,支持对模型性能进行细粒度分析。
使用方法
为便于研究社区使用,该数据集已托管于HuggingFace平台,可通过标准的数据集加载接口便捷获取。用户加载后,可访问每条样本的音频、真实转录文本、上下文提示及领域标签。数据集配套提供了完整的评估工具包,支持计算标准的词错误率以及更精细的命名实体词错误率。研究者可利用其“上下文阶梯”协议,评估不同提示条件下语音识别模型的性能变化,从而深入探究上下文信息的利用效率与模型鲁棒性。相关的演示代码与配置文档进一步降低了使用门槛,支持快速复现与扩展研究。
背景与挑战
背景概述
在自动语音识别技术日益渗透至金融、医疗、法律等高风险专业领域的背景下,现有模型虽具备上下文提示能力,却普遍存在对辅助信息利用不足的困境。为系统探究这一现象,Deepak Babu Piskala于2025年创建了ProfASR-Bench数据集,其核心研究目标在于揭示并量化“上下文利用鸿沟”。该数据集通过涵盖四大专业领域的3200条合成语音,并引入“上下文阶梯”评估协议,为衡量语境化ASR系统的实际效能提供了严谨基准,对推动面向专业场景的鲁棒性语音识别研究具有重要影响。
当前挑战
ProfASR-Bench致力于解决高风险专业领域自动语音识别中语境信息利用不足的核心挑战,其构建过程亦面临多重困难。在领域问题层面,数据集需精准捕捉不同专业术语的声学与语义特征,并设计能够有效评估模型是否真正融合领域知识的度量指标,如命名实体加权词错误率。在构建过程中,挑战主要集中于生成兼具专业准确性与自然度的合成语音,并确保文本内容在保持领域特异性的同时,覆盖多样化的说话人风格与口音,以构建一个均衡且具有代表性的评估基准。
常用场景
经典使用场景
在自动语音识别领域,专业场景下的高精度转录需求日益凸显。ProfASR-Bench数据集通过构建涵盖金融、医疗、法律和技术四大专业领域的合成语音语料,为评估上下文条件化ASR系统提供了标准化测试平台。其经典使用场景在于系统性地检验模型如何利用外部提示信息,例如说话者档案或领域知识,来提升对专业术语和复杂语句的识别准确率,尤其适用于分析模型在有限上下文条件下的性能边界。
解决学术问题
该数据集的核心贡献在于揭示了上下文利用差距这一关键学术问题,即现有ASR系统虽具备提示能力却未能充分整合可用侧信息。通过设计上下文阶梯协议,研究者能够量化分析轻量级文本提示对词错误率的影响,从而推动对模型上下文感知机制的深入理解。这一工作为改进专业领域ASR的鲁棒性和适应性提供了实证基础,促进了人机交互系统中语境建模理论的发展。
衍生相关工作
基于该数据集衍生的经典研究多聚焦于上下文融合架构的创新。例如,有工作探索了动态提示加权机制,使模型能自适应选择与当前语音片段最相关的文本线索;另有研究引入了多模态上下文编码器,将领域知识图谱与语音特征进行联合建模。这些进展不仅扩展了数据集的评估维度,还催生了新一代面向专业对话的端到端ASR系统设计范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作