eval-canary-1b-v2-multimed-hard-20260408-1931

Name: eval-canary-1b-v2-multimed-hard-20260408-1931
Creator: Trelis
Published: 2026-04-09 03:31:47
License: 暂无描述

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/Trelis/eval-canary-1b-v2-multimed-hard-20260408-1931

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含 Whisper 模型 'canary-1b-v2' 在 'Trelis/multimed-hard' 数据集上的评估结果。数据集提供了音频样本（如果可用）、真实转录文本、模型预测文本、单词错误率（WER）和字符错误率（CER）等字段。特别关注医学领域实体识别，包括解剖结构、生物标志物、病症、药物、组织和手术等类别的实体字符错误率（Entity CER）。整体实体 CER 为 25.47%，其中药物类别的识别准确率最高（CER 7.14%），组织类别的识别难度最大（CER 36.63%）。该数据集主要用于评估语音转文本模型在医学领域的性能表现。

提供机构：

Trelis

创建时间：

2026-04-09

搜集汇总

数据集介绍

构建方式

在语音识别模型的评估领域，eval-canary-1b-v2-multimed-hard-20260408-1931数据集是通过对nvidia/canary-1b-v2模型在Trelis/multimed-hard数据集上的性能测试而构建的。该构建过程涉及将源数据集中的音频样本输入目标模型，生成预测转录，并与参考转录进行对比，从而计算出词错误率和字符错误率等关键指标。同时，数据集还整合了源数据中的实体标注信息，进一步计算了针对不同实体类别的字符错误率，为模型在特定领域的识别能力提供了细粒度评估。

特点

本数据集的核心特点在于其专注于医疗领域的语音识别评估，特别是针对多媒体环境下的困难样本。它不仅提供了整体的词错误率和字符错误率，还深入剖析了模型在解剖学、生物标志物、疾病状况、药物、组织和医疗程序等六类实体上的识别性能，其中实体字符错误率高达25.47%，揭示了模型在处理专业术语时的挑战。数据集的列结构清晰，包含了音频、参考文本、模型预测、错误率及实体注释，为分析模型在不同维度的表现提供了结构化支持。

使用方法

研究人员可利用此数据集对canary-1b-v2模型的语音转写能力进行深入分析。通过对比参考转录与模型预测，可以评估模型在通用场景和医疗实体识别上的准确度。具体而言，用户可依据词错误率和字符错误率判断整体性能，并借助分实体类别的字符错误率识别模型在特定医疗术语上的薄弱环节。该数据集适用于模型对比研究、错误模式分析以及医疗语音识别系统的针对性优化，为后续模型改进提供了实证基础。

背景与挑战

背景概述

在语音识别技术迅猛发展的背景下，自动语音转文本模型的性能评估成为推动该领域进步的关键环节。eval-canary-1b-v2-multimed-hard-20260408-1931数据集由Trelis机构于2024年创建，旨在对NVIDIA开发的Canary-1b-v2模型在复杂多媒体医疗语音数据上进行系统性评测。该数据集依托Whisper模型评估框架，聚焦于医疗领域专业术语的识别准确性，其核心研究问题在于衡量模型在嘈杂、多模态医疗环境下的鲁棒性与实体识别能力。通过提供细粒度的词错误率和字符错误率指标，特别是针对解剖学、生物标志物、病症等实体类别的专项分析，该数据集为医疗语音识别系统的优化与标准化评估奠定了重要基础，对提升临床语音辅助工具的实用性与可靠性具有显著影响力。

当前挑战

该数据集致力于解决医疗领域语音转文本任务中的核心挑战，即在高噪声、多说话者交织的临床环境中，准确识别专业医学术语与实体名称。医疗语音常包含大量缩写、复杂药物名称及机构术语，模型需克服音频质量不均、口音差异以及背景干扰等问题，以降低实体识别错误率。在构建过程中，挑战主要体现在数据标注的复杂性上，医疗音频的转录要求标注者具备专业医学知识，以确保实体如“生物标志物”、“手术程序”等类别的标注精确性；同时，数据集的多样性与代表性需平衡，涵盖不同医疗场景、口音及音频质量，以构建一个全面且无偏的评估基准，这过程涉及严格的质控流程与领域专家协作，增加了数据集构建的难度与成本。

常用场景

经典使用场景

在语音识别技术领域，eval-canary-1b-v2-multimed-hard-20260408-1931数据集主要用于评估自动语音识别模型在复杂多模态医疗环境下的性能表现。该数据集通过整合音频样本与对应的参考转录文本，结合实体标注信息，为研究者提供了一个标准化的测试平台，以衡量模型在医疗专业术语识别方面的准确度。其经典使用场景包括模型间的横向对比分析，帮助开发者识别模型在特定医疗实体类别上的优势与不足，从而推动语音识别技术在专业领域的精细化发展。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在医疗领域语音识别模型的评估框架优化与性能提升方面。例如，研究者利用其细粒度的实体错误率分析，开发了针对特定医疗实体类别的数据增强策略或微调方法。此外，该数据集也常被用于构建多模态医疗语音识别基准测试，激励了后续模型如Whisper系列在专业领域的适配与改进，推动了整个领域向更高准确度与实用性的方向发展。

数据集最近研究