IPPM; SyPPM; SoCPPM
收藏arXiv2026-01-16 更新2026-01-20 收录
下载链接:
https://hf.co/collections/PortalPal-AI/evaluating-alignment-for-patient-message-response-drafting
下载链接
链接失效反馈官方服务:
资源简介:
该研究发布了三个专家标注的临床响应数据集,旨在评估大语言模型(LLM)在患者门户消息响应草拟任务中的对齐性能。IPPM和SoCPPM包含真实患者消息与EHR摘要,分别模拟理想条件和实际临床场景;SyPPM为公开的半合成数据集,均围绕8类临床主题(如共情、药物询问)构建。数据集总计700条样本,每条包含患者消息、EHR摘要及临床医生响应,通过混合方法(主题分析、专家研讨)标注生成。其核心应用于优化LLM在医患沟通中的可靠性,减少临床医生编辑负担,提升响应效率与安全性。
This study releases three expert-annotated clinical response datasets intended to evaluate the alignment performance of Large Language Models (LLMs) in the task of drafting responses to patient portal messages. IPPM and SoCPPM contain real patient messages and EHR summaries, simulating ideal clinical conditions and real-world clinical scenarios respectively; SyPPM is a public semi-synthetic dataset constructed around 8 clinical themes including empathy and medication inquiries. The datasets consist of a total of 700 samples, each containing patient messages, EHR summaries, and clinician responses, which were annotated and generated through mixed methods such as thematic analysis and expert workshops. Their core applications are to optimize the reliability of LLMs in doctor-patient communication, reduce the editing burden on clinicians, and enhance response efficiency and safety.
提供机构:
达特茅斯学院·计算机科学系; 达特茅斯健康·社区与家庭医学系; 达特茅斯学院·达特茅斯研究所
创建时间:
2026-01-16
搜集汇总
数据集介绍

构建方式
在医疗信息学领域,IPPM、SyPPM和SoCPPM数据集的构建旨在系统评估大语言模型在患者门户消息回复草拟任务中的临床对齐性。IPPM数据集通过招募4名资深初级护理护士,在无资源限制的理想环境下,基于REDCap调查平台收集主题引导的专家回复,确保回复涵盖共情沟通、症状询问、医疗评估等8个核心临床主题。SyPPM数据集则采用半合成方法,结合去标识化的真实患者电子健康记录摘要与人工生成的模拟患者消息,并由临床专家通过相同主题框架撰写回复,以促进公开研究。SoCPPM数据集直接从医院门户系统提取300条真实患者消息及对应的临床医生实时回复,反映了实际临床工作流中的标准实践。所有数据均包含患者消息、电子健康记录摘要和临床医生回复三元组,并通过严格的数据清洗流程保护患者隐私。
特点
该系列数据集的核心特点在于其多层次评估框架与临床主题的深度整合。数据集首次引入了基于编辑负载的自动化评估指标,包括内容级和主题级编辑F1分数,能够量化临床医生对模型生成草稿的预期修改量,从而直接衡量模型的实际效用。主题分类体系涵盖共情沟通、症状询问、医疗计划等8个临床相关主题,为模型生成内容的临床合理性提供了结构化分析基础。此外,数据集包含理想(IPPM)、合成(SyPPM)和实际(SoCPPM)三种场景,支持模型在不同临床约束条件下的性能评估。数据集的多样性和主题导向设计使其成为探索大语言模型与个体临床医生偏好对齐的关键资源。
使用方法
该数据集主要用于评估和优化大语言模型在患者门户消息回复草拟任务中的性能。研究人员可基于内容级和主题级编辑F1分数,自动化评估模型生成草稿与专家回复的对齐程度,从而减少对人工评估的依赖。数据集支持多种模型适应技术的测试,包括零样本提示、主题提示、检索增强生成、监督微调以及主题驱动的直接偏好优化。通过分析模型在不同临床主题上的表现,开发者可识别模型在特定主题(如症状询问)上的薄弱环节,并针对性地改进模型。此外,数据集可用于研究临床医生间的认知不确定性,探索模型个体化适应的必要性,以促进大语言模型在临床工作流中的可靠应用。
背景与挑战
背景概述
IPPM、SyPPM与SoCPPM数据集由达特茅斯学院计算机科学系与达特茅斯健康中心的研究团队于2026年联合构建,旨在系统评估大型语言模型在患者门户消息响应草拟任务中的临床对齐性。该数据集源于美国一家大型学术医院的电子健康记录门户平台,涵盖2020年至2024年间超过14万条真实的患者-临床医生异步对话。核心研究问题聚焦于量化语言模型生成的响应草稿与临床医生实际响应之间的内容与主题对齐程度,以探索人工智能在减轻临床医生门户消息回复负担、提升医疗沟通效率中的可行性与局限性。该工作通过引入主题驱动的评估框架与专家标注数据集,为医疗自然语言处理领域的可靠性与责任性研究提供了重要的实证基础。
当前挑战
该数据集致力于解决患者门户消息响应自动草拟这一高风险的现实任务,其核心挑战在于如何使语言模型生成与个体临床医生偏好高度对齐、且符合临床标准的响应。具体而言,领域挑战体现为模型需在生成共情沟通、症状与药物追问、医疗评估、治疗计划、后勤协调、护理协同及应急预案等多主题内容时,保持临床准确性、安全性与个性化表达之间的平衡。构建过程中的挑战则包括:从真实临床对话中提取具有临床意义的响应主题体系;设计可量化临床医生编辑负载的双层评估框架;在保护患者隐私的前提下,创建包含真实、合成及实时响应标准的多元评估数据集;以及处理因临床医生经验、角色与风格差异导致的响应内容高度异质性,即认知不确定性带来的对齐难题。
常用场景
经典使用场景
在医疗健康信息学领域,IPPM、SyPPM和SoCPPM数据集为评估大型语言模型在患者门户消息响应草拟任务中的表现提供了标准化基准。这些数据集通过模拟真实的临床沟通场景,支持研究者系统分析模型生成回复与临床医生实际回复之间的对齐程度。经典使用场景涉及将患者消息与电子健康记录摘要作为输入,要求模型生成初步回复草稿,随后通过内容层面和主题层面的编辑负载评估框架,量化临床医生为达到理想回复所需进行的修改工作量。
实际应用
在实际医疗工作流中,患者门户消息响应草拟是临床医生的重要负担。IPPM等数据集通过模拟真实场景,支持开发能够辅助临床医生高效处理异步消息的AI工具。应用场景包括集成大型语言模型到电子健康记录系统,自动生成回复草稿供医生审阅修改,从而减少重复性文书工作。数据集评估的编辑负载指标可直接转化为临床时间节省潜力的估计,为医院管理决策提供依据,促进负责任且可靠的AI工具在临床沟通中的部署。
衍生相关工作
基于该数据集提出的编辑负载评估框架,衍生了一系列围绕临床文本生成对齐的研究。经典工作包括扩展主题分类体系至更多专科领域,开发针对个体医生偏好的个性化微调策略,以及探索检索增强生成在医疗上下文中的应用。同时,该框架启发了跨语言医疗沟通评估工具的构建,并促进了医疗领域专用评判模型的发展。这些衍生工作共同推动了临床自然语言处理向更精细化、个性化评估方向演进。
以上内容由遇见数据集搜集并总结生成



