five

PATIENTSIM

收藏
arXiv2025-05-23 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.17818v1
下载链接
链接失效反馈
官方服务:
资源简介:
PATIENTSIM 是一个模拟真实医患对话的数据集,它基于来自 MIMIC-ED 和 MIMIC-IV 数据集的真实临床数据构建,包括 170 个临床档案和 37 个独特的患者角色组合。该数据集旨在为医疗对话系统的评估提供一个隐私合规的环境,并可用于医疗教育工具。

PATIENTSIM is a dataset for simulating real doctor-patient conversations. It is built upon real clinical data sourced from the MIMIC-ED and MIMIC-IV datasets, and encompasses 170 clinical profiles and 37 unique patient role combinations. This dataset is designed to provide a privacy-compliant environment for evaluating medical dialogue systems, and can also be applied in medical education scenarios.
提供机构:
韩国科学技术院 (KAIST), 加州大学旧金山分校 (UCSF), 三星医疗中心 (Samsung Medical Center), 梨花女子大学 (Ewha Womans University)
创建时间:
2025-05-23
搜集汇总
数据集介绍
main_image_url
构建方式
PATIENTSIM数据集的构建基于真实世界的临床数据,主要来源于MIMIC-ED和MIMIC-IV数据集。通过提取患者的结构化信息(如症状、病史)和非结构化临床记录,构建了170个详细的临床档案。每个档案包含24个条目,涵盖人口统计学、社会史、既往病史和当前就诊信息。此外,通过定义四种人格轴(性格、语言能力、病史回忆水平和认知混乱水平),生成了37种独特的人格组合,以模拟多样化的患者行为。
特点
PATIENTSIM数据集的特点在于其高度真实性和多样性。它不仅基于真实的临床数据,还通过精心设计的人格轴模拟了患者在咨询中的多样化行为。数据集涵盖了五种常见急诊疾病,每种疾病都有详细的症状描述和病史记录。此外,数据集还考虑了患者的语言能力和认知状态,使得模拟的医患互动更加贴近现实。
使用方法
PATIENTSIM数据集主要用于训练和评估医疗对话系统。研究人员可以使用该数据集来测试医生LLM在多轮对话中的表现,或者作为教育工具帮助医学生练习问诊技巧。数据集提供了详细的患者档案和人格设置,用户可以根据需要定制不同的临床场景。使用时应遵循隐私保护原则,确保模拟环境中的数据安全。
背景与挑战
背景概述
PATIENTSIM是由KAIST、UCSF、三星医疗中心及梨花女子大学的研究团队于2025年推出的基于角色驱动的医患交互模拟系统。该数据集通过整合MIMIC-ED和MIMIC-IV的真实临床数据,构建了包含170个临床档案和37种独特患者角色的多维度框架,其核心创新在于通过人格特质、语言能力、病史回忆水平和认知混淆度四个轴向,实现了对临床实践中复杂患者行为的精细化建模。作为首个融合医学专业知识和语言学特征的开源模拟平台,PATIENTSIM为医疗对话系统的训练与评估提供了可扩展、合规隐私的标准化测试环境,显著推进了医学教育智能化的发展进程。
当前挑战
在领域问题层面,PATIENTSIM需解决三大核心挑战:1) 多轮次语境敏感的医患对话建模,要求系统在保持医学事实准确性的同时动态适配患者角色特征;2) 多样化人格特质的语义表达一致性,特别是负面情绪(如不信任、焦虑)的合理呈现易受LLM安全机制干扰;3) 非结构化临床笔记到结构化患者档案的转化,需平衡信息完整性与数据噪声消除。在构建过程中面临:1) 真实患者行为模拟与隐私保护的矛盾,需通过严格的去标识化处理;2) 认知混淆状态的渐进式建模,要求设计符合临床观察的三阶段状态转移机制;3) 语言能力分级系统在医学专业术语域的适配,需建立跨CEFR标准的医学术语分级词典。
常用场景
经典使用场景
PATIENTSIM数据集在医学教育和临床研究中被广泛用于模拟多样化的医患互动场景。通过结合真实世界的临床数据和多样化的患者角色,该数据集能够生成高度逼真的对话,用于训练和评估医生语言模型(LLMs)。其经典使用场景包括急诊科的首诊咨询,其中医生需要基于患者的口述症状和病史进行快速诊断。数据集通过模拟不同性格、语言能力、病史回忆水平和认知状态的患者,为研究者提供了一个可控且可重复的实验环境。
实际应用
在实际应用中,PATIENTSIM被用作医学教育工具,帮助医学生和住院医师练习病史采集和沟通技巧。其隐私合规的设计使其能够在保护患者数据的同时,为研究人员提供一个安全的测试平台。此外,该数据集还被用于开发自动化医疗对话系统,通过模拟不同患者表现来优化系统的交互能力。临床医生可以利用这些模拟对话来评估和改进他们的问诊策略,特别是在处理复杂或情绪化的患者时。
衍生相关工作
PATIENTSIM的推出促进了多项相关研究的发展,特别是在医疗代理模拟和临床对话系统领域。基于该数据集的工作包括对医生LLMs在多轮对话中信息寻求能力的评估,以及心理治疗模拟中复杂内部状态的建模。此外,该数据集的开放性和可定制性激发了更多针对特定医疗场景的模拟器开发,如急诊科工作流模拟和多代理协作诊断系统。这些衍生工作进一步扩展了PATIENTSIM在医疗AI研究和教育中的应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作