eka-hard
收藏Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/Trelis/eka-hard
下载链接
链接失效反馈官方服务:
资源简介:
EKA Hard 是一个专注于医学自动语音识别(ASR)的基准数据集,特别针对印度口音的临床语音中的实体识别任务。该数据集由 Trelis Research 准备,包含 50 条高难度样本,源自印度四所医学院的 57 名说话者的真实临床语音(16kHz 单声道)。数据集经过严格筛选和处理,包括音频长度≥2秒、文本长度≥20字符、使用 Gemini Flash 进行医学实体标注(6 个类别)、保留至少包含一个实体的样本,并通过三模型难度筛选(whisper-large-v3, canary-1b-v2, Voxtral-Mini)和 whisper-english 标准化。数据列包括音频(16kHz WAV)、文本(人工标注的真实转录)、实体(JSON 数组,包含文本、类别、字符起始和结束位置)、难度排名和实体 CER 中位数。适用于医学 ASR 模型的基准测试和实体识别任务。
提供机构:
Trelis
创建时间:
2026-04-07
搜集汇总
数据集介绍

构建方式
在医疗语音识别领域,EKA Hard数据集的构建体现了对临床场景复杂性的深刻理解。该数据集源自印度四所医学院的真实临床语音记录,包含57位说话者的音频样本。构建过程首先筛选出音频长度超过2秒且文本字符数不少于20的样本,随后利用Gemini Flash模型对医学实体进行标注,涵盖药物、病症、手术等六大类别。通过保留至少含有一个实体的样本,并采用三种先进语音识别模型进行难度评估,最终选取实体字符错误率中位数最高的50条样本,形成这一具有挑战性的基准测试集。
特点
EKA Hard数据集的核心特征在于其聚焦医疗实体的识别难度,专门针对印度口音临床语音设计。数据集中每条样本均包含16kHz单声道音频、人工标注的文本转录以及详细的医学实体标注信息,实体涵盖药物名称、疾病诊断、解剖结构等专业领域。该数据集通过难度排名和实体字符错误率中位数两个量化指标,为模型评估提供了细粒度参考。其小规模但高难度的特性,使得它成为检验医疗语音识别系统在复杂场景下性能的精准试金石。
使用方法
该数据集主要服务于医疗自动语音识别系统的性能评估与基准测试。研究人员可通过加载音频文件与对应文本转录,利用内置的实体标注信息计算实体级别的字符错误率,从而深入分析模型在医学专业术语识别上的表现。数据集提供的难度排名有助于识别最具挑战性的样本,推动模型在薄弱环节的改进。同时,其标准化的评估流程与公开的排行榜为不同语音识别系统提供了公平比较的平台,促进了医疗人工智能技术的迭代与发展。
背景与挑战
背景概述
EKA Hard数据集由Trelis Research于2024年构建,专注于医学自动语音识别领域。该数据集旨在解决临床语音中实体识别的核心研究问题,特别是针对印度口音的英语医疗对话。它从EKA Medical ASR评估数据集中精选了50条最具挑战性的样本,涵盖了药物、病症、解剖结构等六类医学实体。这一基准测试的建立,推动了医疗ASR模型在复杂口音和专业术语上的性能评估,为提升临床语音转写的准确性与可靠性提供了关键工具。
当前挑战
EKA Hard数据集所针对的领域挑战在于,医学自动语音识别需在嘈杂的临床环境中准确转写包含大量专业实体的语音,同时克服印度英语口音带来的语音变异问题。在构建过程中,挑战主要集中于从原始数据中筛选出高难度样本,这涉及利用多模型难度过滤机制,并基于实体字符错误率进行排序,以确保所选样本能有效区分不同ASR模型的性能极限。此外,医学实体的精确标注与分类也要求对领域知识有深入理解,增加了数据准备的复杂性。
常用场景
经典使用场景
在医疗语音识别领域,EKA Hard数据集作为一项实体感知的基准测试工具,其经典使用场景聚焦于评估自动语音识别模型在印度口音临床语音中的表现。该数据集精心筛选了包含药物、病症、解剖结构等六类医疗实体的困难样本,通过实体字符错误率等指标,系统衡量模型在复杂医学术语和口音变异下的识别精度,为模型优化提供了精准的评估框架。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,例如基于Whisper、Canary等模型的性能比较与改进探索。这些工作不仅扩展了医疗ASR的评估体系,还促进了实体识别增强技术的创新,如结合领域自适应和口音鲁棒性训练的方法,为后续医疗语音处理系统的研发奠定了坚实的实验基础。
数据集最近研究
最新研究方向
在医疗自动语音识别领域,针对口音多样性和医学术语复杂性的挑战日益凸显,EKA Hard数据集作为专注于印度口音临床语音的实体感知基准,正推动着前沿研究向细粒度实体识别与鲁棒性建模深化。该数据集通过精心筛选的50条高难度样本,聚焦药物、病症、解剖结构等六类医疗实体,促使研究者探索跨口音自适应、领域特定预训练以及端到端实体纠错机制。随着Gemini 2.5 Pro等大型模型在实体错误率指标上展现领先性能,学术界与工业界正借此评估模型在真实临床环境中的泛化能力,其影响延伸至远程医疗、临床文档自动化等热点应用,为提升全球医疗语音技术的公平性与准确性提供了关键参照。
以上内容由遇见数据集搜集并总结生成



