eval-whisper-small-english-medical-terms-2025-20260408-1931

Name: eval-whisper-small-english-medical-terms-2025-20260408-1931
Creator: Trelis
Published: 2026-04-09 03:31:40
License: 暂无描述

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/Trelis/eval-whisper-small-english-medical-terms-2025-20260408-1931

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集为医疗术语评估数据集，用于评估语音识别模型在医疗领域的表现。数据集包含音频样本（如源数据集中可用）、真实转录文本、模型预测结果，以及词错误率(WER)和字符错误率(CER)等评估指标。特别地，数据集还包含实体标注信息（如生物标志物、病症、药物、治疗程序等类别）及相应的实体字符错误率(entity CER)统计。评估结果显示整体实体CER为25.86%，其中不同医疗实体类别的识别准确率存在显著差异。该数据集主要适用于医疗领域语音识别系统的性能评估和错误分析。

提供机构：

Trelis

创建时间：

2026-04-09

搜集汇总

数据集介绍

构建方式

在语音识别技术不断演进的背景下，eval-whisper-small-english-medical-terms-2025-20260408-1931数据集的构建依托于Trelis/medical-terms-2025这一专业医学术语评估集。该数据集通过系统性地采集医学领域的音频样本及其对应的标准文本转录，形成了评估基准。构建过程中，每个样本均标注了实体类别，如生物标志物、疾病、药物和医疗程序，从而为模型在特定医学语境下的性能分析提供了结构化基础。

使用方法

使用本数据集时，研究人员可将其作为评估Whisper-small-english模型在医学语音识别任务上的基准工具。通过加载数据集中的音频、参考转录和模型预测结果，用户能够计算整体错误率并分析实体级别的性能表现。该数据集支持直接对比不同模型或同一模型在不同医学子领域的识别准确性，从而推动语音识别技术在医疗应用中的针对性改进。

背景与挑战

背景概述

随着自动语音识别技术在医疗领域的深入应用，针对专业医学术语的识别精度成为关键研究课题。该评估数据集于2025年创建，由Trelis等研究机构主导，旨在系统评估Whisper-small-english模型在医疗术语转录任务中的性能。其核心研究问题聚焦于如何提升语音识别系统对复杂医学实体（如生物标志物、病症、药物及医疗程序）的准确捕捉能力，通过引入实体级字符错误率等细粒度指标，为医疗语音交互系统的优化提供了重要的基准参考，推动了领域内模型评估范式的精细化发展。

当前挑战

该数据集所针对的医疗语音识别领域，面临专业术语多样性高、发音相似性复杂以及语境依赖性强的核心挑战，具体体现在药物名称等实体识别错误率显著高于普通词汇。在构建过程中，挑战主要源于医疗音频数据的标注一致性保障，需平衡医学专家知识与标准化转录规范，同时实体边界界定与类别划分也增加了数据处理的复杂度，这些因素共同影响了评估结果的可靠性与泛化能力。

常用场景

经典使用场景

在语音识别领域，特别是针对医学专业术语的自动转录，该数据集被广泛应用于评估Whisper小型英语模型在医疗场景下的性能。通过提供包含生物标志物、病症、药物和医疗程序等实体类别的音频样本及其参考转录，它支持研究者系统性地计算词错误率和字符错误率，从而精准衡量模型在复杂医学术语环境中的识别准确度。

解决学术问题

该数据集有效解决了自动语音识别模型在专业领域，尤其是医学语境下，因术语生僻、发音多变而导致的识别精度不足的学术挑战。通过引入实体级别的字符错误率分析，它帮助研究者深入探究模型对不同医学实体类别的敏感度差异，为优化领域自适应训练、减少专业术语误识提供了关键的数据支撑和评估基准。

实际应用

在实际应用中，该数据集支撑的评估结果可直接指导临床语音助手、医疗记录自动转录系统等工具的开发和优化。通过识别模型在药物名称或病症描述等关键实体上的错误率，工程团队能够针对性地改进语音识别管道，提升其在真实医疗环境中的可靠性，从而辅助医生高效、准确地完成病历记录与信息检索。

数据集最近研究