ACI-BENCH
收藏arXiv2023-06-03 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2306.02022v1
下载链接
链接失效反馈官方服务:
资源简介:
ACI-BENCH是一个创新的环境临床智能数据集,专为基准测试自动访问笔记生成而设计。该数据集是目前最大的,包含207条记录,由微软健康与生命科学人工智能团队和华盛顿大学生物医学与健康信息学团队共同创建。ACI-BENCH旨在模拟医生-患者对话中的三种模型辅助临床笔记生成变体,包括虚拟助手交互、无约束的抄写员讨论以及医生与患者之间的自然对话。数据集的创建过程涉及医学专家,包括医生、助理医师、医学抄写员和临床信息学家,基于实际遭遇的经验和研究。ACI-BENCH的应用领域主要集中在通过自动摘要技术辅助医生记录临床笔记,以提高医疗记录的效率和准确性,同时减轻医生的文档负担。
ACI-BENCH is an innovative environmental clinical intelligence dataset designed for benchmarking automatic visit note generation. It is currently the largest of its kind, containing 207 records, co-developed by the Microsoft Health & Life Sciences AI Team and the University of Washington's Biomedical and Health Informatics team. ACI-BENCH aims to simulate three model-assisted clinical note generation variants in physician-patient conversations, including virtual assistant interactions, unconstrained scribe discussions, and natural dialogues between physicians and patients. The dataset was developed with involvement from medical professionals including physicians, physician assistants, medical scribes, and clinical informaticians, based on real-world clinical encounter experiences and relevant research. The primary application scope of ACI-BENCH focuses on assisting physicians in documenting clinical notes through automatic summarization technologies, to improve the efficiency and accuracy of medical records while alleviating physicians' documentation burden.
提供机构:
微软, 健康与生命科学人工智能, 雷德蒙德, 98052, 美国
创建时间:
2023-06-03
搜集汇总
数据集介绍

构建方式
在医疗人工智能领域,临床笔记自动生成任务因缺乏公开可用的医患对话数据集而面临瓶颈。ACI-BENCH数据集的构建旨在填补这一空白,通过模拟真实临床场景,由医学专家团队精心设计。数据创建过程涉及三种常见笔记生成模式:虚拟助手模式、虚拟文书模式及环境临床智能模式。医学专家基于症状提示进行角色扮演,生成对话录音,随后通过自动笔记生成系统初步起草临床笔记,并由领域专家进行人工校验与重写。为确保数据质量,团队实施了系统的注释流程,识别并移除了对话中未提及的笔记内容,同时对自动语音识别转录文本进行了人工校正,最终形成了包含207个医患对话-笔记对的高质量语料库。
特点
ACI-BENCH数据集作为当前最大的公开医患对话-笔记配对语料库,其显著特点在于覆盖了多样化的临床笔记生成场景。数据集不仅包含自然对话,还模拟了虚拟助手介入及文书辅助等现实医疗环境,增强了模型的泛化能力。此外,数据集经过严格的内容验证与对齐标注,确保了笔记内容与对话之间的高度一致性,移除了未在对话中提及的信息,从而提升了数据的可靠性。数据集的另一个关键特征是其结构化的划分方式,将临床笔记按SOAP标准分为主观、客观检查、客观结果及评估与计划四个连续部分,这既缓解了数据稀疏性问题,也便于进行细粒度的模型训练与评估。
使用方法
ACI-BENCH数据集主要用于评估和推进临床对话自动摘要技术的研究。研究者可利用该数据集训练和测试多种生成模型,如基于BART、LED的预训练模型及OpenAI系列模型,以探索其在临床笔记生成任务上的性能。数据集提供了标准化的训练、验证及测试划分,支持全笔记生成与分部分生成两种策略,后者尤其适用于处理长序列输入输出的场景。评估时可采用多种自动指标,包括ROUGE、BERTScore、BLEURT及基于医学概念的MEDCON分数,以全面衡量生成笔记的流畅性、信息完整性和临床相关性。此外,数据集还允许研究者探究自动语音识别转录与人工转录对笔记生成质量的影响,为实际部署提供参考依据。
背景与挑战
背景概述
随着生成式模型如GPT-4的突破性进展,人工智能在医疗领域的应用潜力被重新构想。临床笔记生成作为医患对话记录的核心任务,长期困扰着医生群体,因其耗时且繁琐。电子健康记录的普及虽提升了信息可及性,却加剧了临床医生的文档负担,甚至可能影响医患互动质量。在此背景下,由微软、华盛顿大学及Nuance Communications等机构的研究人员共同创建的ACI-BENCH数据集应运而生,旨在为基于医患对话的自动临床笔记生成任务提供公开、大规模的基准数据。该数据集通过模拟真实临床场景中的三种对话模式,涵盖了虚拟助理、虚拟文书及自然对话等多种交互形态,成为当前该领域最大且最全面的公开语料库,有力推动了临床智能辅助系统的研究与评估。
当前挑战
ACI-BENCH数据集致力于解决医患对话自动生成临床笔记这一核心问题,其面临多重挑战。在领域问题层面,临床笔记需从冗长、非结构化的对话中提取关键医学信息,并转化为符合SOAP标准的半结构化文档,同时处理医学术语、外部数据引用及语义压缩等复杂需求。在构建过程中,挑战尤为显著:首先,真实临床对话因患者隐私和伦理限制难以公开获取,导致数据稀缺;其次,模拟数据需在医学准确性与语言自然度之间取得平衡,并通过专家标注移除无对话依据的文本;此外,临床笔记格式多样且缺乏统一标准,需设计合理的分段策略以适配模型训练与评估;最后,自动语音识别误差对文本质量的影响亦需细致考量,以确保数据可靠性。
常用场景
经典使用场景
在医疗人工智能领域,临床记录自动化生成是提升诊疗效率的关键环节。ACI-BENCH数据集通过模拟医患对话与临床笔记的对应关系,为研究者提供了一个标准化的评估平台。其经典使用场景集中于训练和测试自动摘要模型,特别是针对医患对话生成结构化临床笔记的任务。该数据集包含三种常见临床记录生成模式:虚拟助手辅助、虚拟文书参与以及自然对话环境,覆盖了从指令性交互到自由对话的多种现实情境。研究人员可利用该数据集开发能够理解医学对话、提取关键信息并生成符合SOAP格式临床笔记的智能系统。
解决学术问题
ACI-BENCH数据集主要解决了临床自然语言处理领域缺乏公开、大规模医患对话-笔记配对数据的瓶颈问题。由于真实临床对话涉及患者隐私,难以公开获取,该领域长期面临数据稀缺的挑战。该数据集通过角色扮演方式构建,在保证医学合理性的前提下,提供了可公开使用的基准数据。它使研究人员能够系统评估生成模型在医疗文本摘要任务上的性能,比较不同模型架构的优劣,并推动自动临床笔记生成技术的标准化发展。该数据集的发布填补了公开医疗对话摘要数据资源的空白,为后续研究提供了可靠的实验基础。
衍生相关工作
围绕ACI-BENCH数据集,研究社区已开展多项经典工作。该数据集本身作为MEDIQA-Chat 2023和MEDIQA-SUM 2023评测任务的核心数据,推动了多模态临床摘要技术的比较研究。基于该数据集的基准实验涵盖了从传统的检索方法、BART系列模型到GPT-4等大语言模型的全面评估。这些工作系统分析了分块生成与完整生成策略的优劣,探讨了语音识别误差对笔记生成的影响。相关研究还衍生出针对临床笔记分块评估的新方法,以及医疗概念抽取与对齐技术,为临床自然语言处理领域的模型优化与评估体系完善提供了重要参考。
以上内容由遇见数据集搜集并总结生成



