EHR-ChatQA
收藏arXiv2025-09-28 更新2025-10-01 收录
下载链接:
https://github.com/glee4glol/EHR-ChatQA
下载链接
链接失效反馈官方服务:
资源简介:
EHR-ChatQA是一个用于评估数据库代理在电子健康记录(EHR)领域交互式查询处理能力的基准数据集。该数据集包含350个任务实例,分布在两个EHR数据库(MIMIC-IV和eICU)和两种交互流程(增量查询细化和自适应查询细化)中。数据集旨在模拟真实临床场景,评估代理在处理查询歧义和术语不匹配方面的能力。
提供机构:
韩国科学技术院(KAIST)1,NAVER Cloud2,三星医疗中心3
创建时间:
2025-09-28
搜集汇总
数据集介绍

构建方式
EHR-ChatQA数据集的构建过程体现了电子健康记录领域对交互式问答系统的迫切需求。该数据集基于真实临床场景,通过系统化的标注流程构建而成:首先从EHRSQL数据集和合作医疗中心的内部查询中筛选临床相关查询,利用先进语言模型生成初始用户指令草案,再由核心标注团队(包括计算机科学研究生和医师)进行人工精修。标注过程中特别注重引入术语不匹配挑战,将数据库中的专业术语改写为日常用语(如将“恶性乳腺肿瘤”改为“乳腺癌”),同时采用公共表表达式编写SQL查询以确保可读性。数据集最终包含350个任务实例,均匀分布在MIMIC-IV和eICU两个经过模式重命名的公开EHR数据库上,有效防止模型依赖先验知识。
使用方法
在电子健康记录智能查询的研究实践中,EHR-ChatQA数据集提供了标准化的评估框架。研究人员可将数据库代理置于模拟环境中,该环境配备基于LLM的用户模拟器和包括表搜索、列搜索、值子串搜索、值相似性搜索、网络搜索及SQL执行在内的工具套件。代理需要管理完整工作流程:从解析模糊用户问题开始,通过对话澄清需求,利用工具解决术语不匹配,最终生成并执行准确SQL查询返回答案。评估时需注意两种交互流程的不同验证机制——IncreQA任务通过执行生成SQL与真实答案比对,AdaptQA任务则基于代理最终响应内容判断正确性。数据集支持Pass@k和Passˆk等指标计算,特别强调代理在多次运行中的一致性表现,这对安全关键的医疗领域至关重要。
背景与挑战
背景概述
EHR-ChatQA数据集于2025年由KAIST、NAVER Cloud和三星医疗中心联合发布,旨在解决电子健康记录领域自然语言交互的关键瓶颈。该数据集聚焦于现实临床场景中数据库智能体的端到端工作流程评估,突破了传统文本转SQL基准测试的局限。通过模拟真实医患对话环境,EHR-ChatQA填补了临床数据访问流程标准化评估的空白,为医疗人工智能系统的可靠性验证提供了重要基础设施,对推动智慧医疗发展具有里程碑意义。
当前挑战
该数据集核心挑战体现在两个维度:领域问题层面需解决用户查询歧义与医学术语不匹配的临床痛点,构建过程中面临多轮对话标注复杂性与医学知识融合的技术难题。具体而言,查询歧义要求智能体处理模糊的临床问题表述,术语不匹配需弥合日常用语与专业数据库间的语义鸿沟。技术实现上,构建团队需在保证医学准确性的前提下设计增量查询优化和自适应查询重构两种交互流程,同时克服大型语言模型对公开数据库模式记忆导致的评估偏差问题。
常用场景
经典使用场景
在临床数据访问领域,EHR-ChatQA数据集通过模拟真实医疗环境中的交互式对话流程,为评估电子健康记录数据库智能代理的端到端性能提供了标准化测试平台。该数据集最经典的使用场景体现在模拟临床医生与数据库系统的多轮对话过程,智能代理需要解析用户模糊的初始查询,通过工具调用解决医学术语与数据库条目之间的语义鸿沟,最终生成准确的SQL查询并返回临床决策所需的关键信息。这种交互模式有效还原了医护人员在紧急医疗场景下快速获取患者数据的真实工作流程。
解决学术问题
该数据集针对电子健康记录领域长期存在的两大核心学术难题提供了系统性解决方案:查询歧义性解析与医学术语匹配问题。通过引入增量查询优化和自适应查询优化两种交互范式,有效解决了传统文本到SQL转换模型在临床环境中因用户提问模糊性和医学术语多样性导致的性能瓶颈。其创新性评估指标体系,特别是Pass@5与Passˆ5之间的性能差距分析,为衡量智能代理在安全敏感医疗场景下的稳定性提供了重要理论依据,推动了临床自然语言交互系统的可靠性研究。
实际应用
在医疗信息化实践中,EHR-ChatQA为电子健康记录系统的智能化升级提供了关键技术支持。该数据集支撑的智能代理系统能够帮助临床医生通过自然语言对话快速检索患者病史、用药记录和实验室检查结果,显著提升医疗决策效率。在临床研究场景中,研究人员无需掌握复杂的数据查询语言即可进行大规模病历数据分析,加速医学证据生成过程。医院管理部门亦可基于此技术构建智能医疗质量监控系统,实现对诊疗过程的实时数据洞察。
数据集最近研究
最新研究方向
在电子健康记录交互问答领域,EHR-ChatQA数据集推动了数据库智能体的端到端评估范式革新。该数据集聚焦于解决临床数据访问中的两大核心挑战——查询模糊性和术语不匹配,通过模拟环境中的增量式查询优化与自适应查询重构两种交互流程,系统评估智能体在动态对话中澄清用户意图、调用工具链及生成精准SQL的能力。前沿研究揭示,尽管当前大语言模型在单次尝试成功率上表现优异,但其跨多轮对话的稳定性存在显著差距,尤其在涉及复杂临床术语映射和上下文逻辑维护时,一致性成功率较乐观成功率下降超过50%。这一发现为医疗领域安全关键型应用的可靠性优化指明了方向,促使研究重点从单纯性能提升转向鲁棒性增强与失败模式诊断。
相关研究论文
- 1From Conversation to Query Execution: Benchmarking User and Tool Interactions for EHR Database Agents韩国科学技术院(KAIST)1,NAVER Cloud2,三星医疗中心3 · 2025年
以上内容由遇见数据集搜集并总结生成



