PriMock57

Name: PriMock57
Creator: 巴比伦健康
Published: 2022-04-01 18:18:28
License: 暂无描述

arXiv2022-04-01 更新2024-06-21 收录

下载链接：

https://github.com/babylonhealth/primock57

下载链接

链接失效反馈

官方服务：

资源简介：

PriMock57是由巴比伦健康公司创建的一个高质量数据集，包含57次模拟初级医疗咨询的音频记录、手动转录和相关咨询笔记。数据集内容涵盖多种常见医疗状况，如耳炎、心血管疾病等，旨在代表英国初级医疗中的常见投诉。创建过程中，使用了7名有虚拟咨询经验的临床医生和57名扮演患者的演员，确保数据尽可能接近真实条件。该数据集主要用于评估自动语音识别（ASR）在临床对话中的应用以及自动生成咨询笔记，旨在解决临床对话ASR缺乏公认基准的问题，并加速该领域的研究进展。

PriMock57 is a high-quality dataset developed by Babylon Health, encompassing 57 audio recordings of simulated primary care consultations, manual transcripts, and corresponding consultation notes. The dataset covers a broad spectrum of common medical conditions including otitis media, cardiovascular diseases and others, and is intended to represent the prevalent complaints seen in UK primary care settings. During its construction, 7 clinicians with experience in virtual medical consultations and 57 actor-patients were engaged to ensure that the data closely mirrors real-world clinical scenarios. This dataset is primarily employed to evaluate the application of automatic speech recognition (ASR) in clinical dialogues as well as the automatic generation of consultation notes, aiming to resolve the absence of widely recognized benchmark datasets for clinical dialogue ASR and expedite research advancements in this domain.

提供机构：

巴比伦健康

创建时间：

2022-04-01

搜集汇总

数据集介绍

构建方式

在临床对话自动语音识别研究领域，数据稀缺性构成了显著障碍。PriMock57数据集通过模拟真实初级医疗咨询场景，构建了一个包含57段模拟咨询的高质量公开数据集。其构建过程严谨模拟真实医疗环境：招募具有虚拟咨询经验的临床医生和多样化的演员扮演患者，依据代表英国初级医疗常见病症的案例卡片进行角色扮演。咨询过程通过专有远程医疗软件录制，分离医患音频通道，并在办公室环境中引入背景噪声以增强真实性。临床医生遵循实际咨询规范，包括限时10分钟并按照SOAP格式撰写咨询记录。随后，由具备临床对话转录经验的专业人员对录音进行人工逐话语转录，标注起止时间并生成精确文本，最终形成包含音频、人工转录文本及对应咨询笔记的完整数据资源。

特点

该数据集的核心特征体现在其高度的生态效度与结构化设计。模拟咨询严格遵循真实初级医疗流程，涵盖了耳部感染、心血管疾病、心理健康等12类常见病症，确保了临床内容的代表性。数据呈现多模态特性，同步提供音频、逐话语转录文本及结构化咨询笔记，为跨模态研究奠定基础。语音数据具有丰富的多样性，医患双方在性别、年龄、口音（包括英式、印度式及多种欧洲口音）上分布广泛，有效反映了实际医疗对话的复杂性。转录文本经过精细处理，移除不流利表达并统一数字格式，保证了数据的一致性。此外，咨询笔记采用标准SOAP格式，与转录文本形成精准对齐，为自动生成医疗文本的任务提供了可靠评估基准。

使用方法

该数据集主要服务于临床对话自动语音识别与咨询笔记自动生成两大研究任务。在语音识别评估中，研究者可提取人工标注的独立话语音频片段，利用各类ASR引擎生成自动转录，并通过对比人工参考文本计算词错误率等指标，系统评估模型在临床对话场景下的性能。数据集提供的口音、性别、角色等元数据支持细粒度误差分析。在笔记生成任务中，对齐的转录-笔记对可用于训练或评估序列到序列生成模型。研究者可采用提取式或生成式方法，从对话转录中自动合成SOAP格式笔记，并通过ROUGE、BERTScore等自动度量指标，或进一步结合人工评估，衡量生成文本的临床相关性与事实准确性。数据集的开源特性允许其作为公共基准，促进不同研究方法之间的公平比较与迭代优化。

背景与挑战

背景概述

在临床医学与人工智能交叉领域，自动语音识别技术的进步为医患对话的自动转录提供了可能，然而患者隐私的严格限制使得临床数据集的获取极为困难，严重阻碍了相关研究的正常进展。PriMock57数据集由Babylon等机构的研究团队于2022年构建，旨在通过模拟初级保健咨询场景，提供一个包含57段高质量音频、人工逐话语转录文本及对应咨询笔记的公开数据集。该数据集的核心研究问题聚焦于为临床对话的自动语音识别以及基于转录文本的咨询笔记自动生成任务建立标准化基准，从而推动远程医疗与自然语言处理技术在初级保健领域的应用与发展。

当前挑战

PriMock57数据集致力于解决临床对话自动语音识别与咨询笔记自动生成两大领域问题，其面临的主要挑战包括：在自动语音识别方面，医患对话中存在的专业医学术语、多样化的口音与说话风格，以及对话中的停顿与不流畅现象，均对识别准确性构成显著挑战；在咨询笔记生成方面，如何从冗长对话中精准提取关键临床信息，并生成符合SOAP格式的结构化、专业性笔记，是自然语言生成模型需要克服的核心难题。在数据集构建过程中，研究团队需在模拟真实咨询场景与保护参与者隐私之间取得平衡，同时确保音频质量、转录准确性以及笔记的专业性与一致性，这些因素共同增加了数据采集与标注的复杂度。

常用场景

经典使用场景

在临床语音识别与自然语言处理领域，PriMock57数据集为模拟初级保健咨询对话提供了标准化评估基准。该数据集通过精心设计的模拟场景，涵盖了多种常见病症的医患互动，其音频记录、人工转录文本及咨询笔记的并行结构，使得研究人员能够系统性地测试自动语音识别系统在医疗对话环境下的准确性。尤为重要的是，数据集模拟了真实远程医疗咨询的声学条件与语言特点，为开发适应临床术语、口音变异和对话结构的语音识别模型奠定了坚实基础。

衍生相关工作

围绕PriMock57数据集，研究者已展开多项经典衍生工作。在自动语音识别方面，数据集被用于评估Kaldi、QuartzNet、Conformer及多个商业语音识别引擎在临床对话中的性能，并促进了针对医疗术语识别优化的错误率度量方法的发展。在自然语言生成领域，该数据集支撑了基于BART等预训练模型的咨询笔记自动生成研究，包括对提取式与抽象式摘要技术的对比分析。这些工作不仅验证了数据集作为基准的有效性，也推动了医疗对话理解、临床信息提取与文档生成等交叉方向的算法创新与模型优化。

数据集最近研究