five

medical-terms-2025

收藏
Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/Trelis/medical-terms-2025
下载链接
链接失效反馈
官方服务:
资源简介:
Medical Terms 2025 — Medical ASR Benchmark 是一个专注于医疗术语的自动语音识别(ASR)基准数据集。该数据集包含50个具有挑战性的样本,涵盖了2025年的药物和病症术语,采用合成TTS音频生成。数据来源于FDA/EMA/WHO的主要资源,共84个手动整理的术语,每个术语都包含来源URL、日期和质量信息。句子由Gemini 2.5 Flash生成,音频由Kokoro TTS通过Trelis Studio合成(使用9种声音轮换)。数据集经过实体标记和难度过滤(基于whisper-large-v3、canary-1b-v2和Voxtral-Mini模型),并选取了中位数实体CER最高的前50个样本。实体类别包括药物、病症、程序、解剖结构、生物标记和组织机构。数据集包含以下列:音频(24kHz WAV)、文本(真实句子)、关键词(目标医学术语)、类别(实体类别)、声音(Kokoro声音ID)、实体(标记的医疗实体JSON数组)、难度排名(1为最难)和中位数实体CER(三个模型的CER中位数)。数据集适用于医疗ASR任务和实体识别任务。
提供机构:
Trelis
创建时间:
2026-04-07
搜集汇总
数据集介绍
main_image_url
构建方式
在医疗自动语音识别领域,精准识别专业术语是技术发展的关键挑战。Medical Terms 2025数据集的构建始于从FDA、EMA和WHO等权威机构的手动筛选,共收集84个2025年的药物与疾病术语,每个术语均附有来源链接、日期和质量评估。随后利用Gemini 2.5 Flash模型为每个术语生成自然语句,再通过Kokoro TTS系统以9种不同语音合成音频,确保语音多样性。构建过程中采用字符串搜索进行实体标注,并基于Whisper-large-v3、Canary-1b-v2和Voxtral-Mini三种模型的实体字符错误率中位数进行难度过滤,最终精选出最具挑战性的50条数据,形成了这个实体感知的医疗ASR基准测试集。
特点
该数据集聚焦于医疗术语识别的前沿需求,其核心特点体现在实体标注的精细化和评估维度的多维性。数据集中每个样本均包含音频、文本及关键词信息,并详细标注了药物、疾病、手术、解剖结构、生物标志物和组织机构六类医疗实体,为模型理解医疗上下文提供了结构化支持。通过集成多种语音合成和难度排名机制,数据集不仅模拟了真实医疗场景中的语音变异,还以实体字符错误率作为主要评估指标,直接反映了模型在关键术语识别上的性能。这种设计使得数据集能够有效衡量ASR系统在专业医疗领域的鲁棒性和准确性。
使用方法
作为医疗ASR领域的基准测试工具,该数据集主要用于评估和比较不同语音识别模型在专业术语识别上的表现。使用者可直接加载数据集中的音频文件作为输入,将模型转录结果与标注的真实文本进行对比,计算整体字符错误率、词错误率及实体字符错误率等指标。数据集中提供的难度排名和实体类别信息允许进行细粒度分析,例如探究模型在特定医疗实体类型上的识别弱点。此外,数据集支持与现有排行榜中的模型性能进行横向比较,为研究者和开发者优化医疗ASR系统提供了可靠的评估框架和方向指引。
背景与挑战
背景概述
在医疗人工智能领域,自动语音识别技术正逐步渗透至临床文档记录、医患沟通分析等关键场景。由Trelis Research于2025年创建的Medical Terms 2025数据集,聚焦于医疗实体感知的语音识别基准测试。该数据集的核心研究问题在于评估和提升ASR模型对新兴医学术语——特别是2025年FDA、EMA及WHO等权威机构发布的药物与病症术语——的识别准确率。通过精心筛选84个术语并生成合成语音,该数据集为衡量模型在专业医疗语境下的实体识别性能提供了标准化工具,对推动医疗ASR技术向更高精度与可靠性发展具有显著影响力。
当前挑战
该数据集旨在应对医疗自动语音识别中实体识别的核心挑战,即模型对复杂、新兴且发音多变的医学术语——如药物名称、解剖结构及生物标志物等——的准确转录。这些术语往往包含罕见拼写、缩写或外来词源,导致通用ASR模型识别错误率居高不下。在构建过程中,挑战主要体现在术语的权威性筛选与语音合成的真实性平衡上:需要从动态更新的国际医疗规范中手动提取术语,并利用多语音合成技术模拟真实临床场景的声学变异,同时通过多模型难度过滤机制确保基准测试样本具有足够的鉴别力,以有效区分不同ASR模型的性能差异。
常用场景
经典使用场景
在医疗自动语音识别领域,Medical Terms 2025数据集作为一项实体感知的基准测试工具,其经典使用场景聚焦于评估模型对新兴医学术语的识别精度。该数据集通过合成语音模拟真实医疗对话环境,涵盖药物、病症、解剖结构等六类实体,为研究者提供了衡量模型在复杂术语处理能力上的标准化平台。
实际应用
在实际应用中,该数据集能够指导临床语音转录系统、医疗咨询助手及医学教育工具的优化与部署。通过基准测试揭示不同模型在专业术语识别上的差异,帮助开发者为医院、药企及科研机构筛选或定制高精度的语音识别解决方案,从而提升医疗信息记录的准确性与诊疗效率。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于实体CER的模型比较研究,以及针对医疗术语鲁棒性的增强方法探索。例如,在公开的排行榜中,Gemini 2.5 Pro、Scribe-v2等模型的评估结果激发了后续研究对多模态医疗ASR架构的改进,并推动了如Trelis Studio等评估工具在医疗语音技术生态中的集成与应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作