MedCase-Structured

Name: MedCase-Structured
Creator: System Inc.
Published: 2026-05-29 01:42:43
License: 暂无描述

arXiv2026-05-29 更新2026-05-30 收录

下载链接：

https://github.com/SystemInternal/MedCase-Structured

下载链接

链接失效反馈

官方服务：

资源简介：

MedCase-Structured是由System Inc.创建的一个临床现实合成数据集，旨在为电子健康记录（EHR）环境中的诊断推理提供结构化基准。该数据集基于MedCaseReasoning的约14,500个诊断案例，通过多阶段生成流程将非结构化文本转换为术语验证的HL7 FHIR R4患者捆绑包，最终包含1,408条有效数据，覆盖患者人口统计、症状、实验室结果等多维临床信息。数据创建过程结合了大型语言模型分阶段生成、术语接地验证与修复技术，确保FHIR资源的结构与语义一致性，成功转换率达82.5%。该数据集主要应用于临床决策支持系统的评估与训练，解决在结构化、可互操作的EHR格式下模型诊断准确性下降的问题，推动部署对齐的基准测试发展。

MedCase-Structured is a clinical real-world synthetic dataset developed by System Inc., which serves as a structured benchmark for diagnostic reasoning in electronic health record (EHR) environments. Built upon approximately 14,500 diagnostic cases sourced from MedCaseReasoning, it adopts a multi-stage generation pipeline to convert unstructured text into terminology-verified HL7 FHIR R4 patient bundles, ultimately yielding 1,408 valid entries covering multidimensional clinical information including patient demographics, symptoms, laboratory results, and other relevant clinical data. The dataset creation process integrates staged Large Language Model (LLM) generation, terminology grounding validation and correction technologies to guarantee the structural and semantic consistency of FHIR resources, with a successful conversion rate of 82.5%. This dataset is mainly applied to the evaluation and training of clinical decision support systems, addressing the problem of reduced diagnostic accuracy of models under structured and interoperable EHR formats, and advancing the development of deployment-aligned benchmark testing.

提供机构：

System Inc.

创建时间：

2026-05-29

原始信息汇总

MedCase-Structured 数据集概述

基本信息

数据集名称: MedCase-Structured
存储位置: GitHub 仓库 SystemInternal/MedCase-Structured
相关论文: MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings（arXiv: 2605.30295）
发布状态: 完整数据集将在 ICML 2026 Workshop on Structured Data for Health 举办前发布

数据集用途

用于在临床真实的电子健康记录（EHR）环境中评估诊断推理能力
提供 Text-to-FHIR 任务，即从文本到 FHIR（快速医疗互操作性资源）格式的转换基准

关联信息

论文预印本地址: https://arxiv.org/abs/2605.30295

搜集汇总

数据集介绍

构建方式

MedCase-Structured数据集基于MedCaseReasoning中约14,500例临床诊断病例构建，通过一个多阶段流水线将非结构化文本转换为HL7 FHIR R4格式的标准化患者数据包。该流水线依次执行临床信息提取、术语接地验证与修复、FHIR资源合成及诊断信息隐藏。在提取阶段，模型从自由文本中抽取患者人口学特征、症状、检验、用药等元素，并保留原始引用；术语接地阶段利用SapBERT嵌入和FAISS索引对SNOMED CT、LOINC、RxNorm等编码进行验证与修正；合成阶段依据HL7 R4模板生成Bundle资源，并通过最多三轮修复循环确保结构一致性；最后依据可配置模式（无结论、隐藏主诊断、保留患者陈述、保留全部）剔除诊断信息。经过筛选，最终成功生成1,408个有效FHIR案例，转化成功率达82.5%。

特点

该数据集的核心特点在于实现了对结构化电子健康记录（EHR）诊断推理的真实模拟。每个案例均以术语接地且经临床一致性验证的FHIR R4 Bundle形式呈现，包含Patient、Encounter、Condition、Observation、MedicationRequest等十类资源，完整保留了原始临床叙述的复杂性。数据集的诊断隐藏机制支持四种模式，允许研究者灵活控制评估中诊断信息的暴露程度，有效防止信息泄露。实验表明，在结构化FHIR输入上，LLM的诊断准确率显著低于纯文本输入（降幅最高达23.16个百分点），揭示了结构化EHR数据对模型推理能力的额外挑战，凸显了部署对齐基准测试的重要性。

使用方法

MedCase-Structured适用于评估和训练临床决策支持系统在EHR兼容环境下的诊断推理能力。使用者可直接加载FHIR Bundle JSON进行零样本或少样本推理，将结构化患者数据输入LLM以输出预测诊断。数据集提供了清晰的评估协议：建议使用独立的LLM评判模型（如GPT-5.4）对预测结果与真实诊断进行临床等价性判断，输出二分类准确率。用户还可通过选择诊断隐藏模式（NONE/HIDDEN/EXPLICIT/FULL）控制信息暴露程度，系统性地探究输入格式对模型推理的影响。该数据集覆盖训练集、验证集和测试集，支持可重复的对比实验。

背景与挑战

背景概述

在临床决策支持系统（CDSS）日益依赖大语言模型（LLM）的当下，评估其在真实电子健康记录（EHR）环境中的表现成为关键挑战。现有基准测试多依赖静态文本或非结构化输入，未能反映临床系统中广泛采用的结构化、互操作性数据格式。为弥合这一鸿沟，纽约System Inc.的Valentina Bui Muti等研究人员于2026年提出MedCase-Structured数据集。该数据集基于MedCaseReasoning中的临床案例，通过结合分阶段LLM生成与术语验证修复的流水线，将非结构化文本转换为HL7 FHIR R4格式的结构化患者数据，最终构建了涵盖约1400例经过术语验证的合成FHIR患者包。研究工作发表于ICML 2026研讨会，其核心价值在于为CDSS提供了对齐临床真实部署环境的标准化评测基准，揭示了LLM在结构化EHR数据上的诊断推理能力显著弱于纯文本基线，从而推动了临床AI评估范式的发展。

当前挑战

MedCase-Structured的构建面临多重挑战。在领域问题层面，结构化EHR数据固有的异质性与互操作性标准（如FHIR）要求模型对患者记录进行复杂检索与知识驱动的逻辑推理，这与传统文本推理截然不同；实验表明，LLM在结构化FHIR输入上的诊断准确率较纯文本输入下降最高达23个百分点，凸显出格式转换带来的推理困难。在数据集构建过程中，主要挑战集中于术语性幻觉与映射错误：LLM生成的临床代码（如LOINC、RxNorm）常出现虚构或语义偏差，导致183个LOINC代码与126个RxNorm代码被拒；此外，非特异性描述（如“口服抗生素”）、同义词覆盖缺口（如“Moderna加强针”）、以及多患者或非人类案例的过滤，均增加了流水线的复杂性。术语验证与修复环节虽采用SapBERT嵌入与FAISS索引进行余弦相似度校准，但仍有约17.5%的案例因代码错误或语义映射失败而被排除，凸显了将自由文本精确对齐标准化术语体系的根本性挑战。

常用场景

经典使用场景

在临床决策支持系统（CDSS）的研究中，MedCase-Structured作为首个将自由文本临床病例转化为结构化HL7 FHIR R4数据集的标杆，被广泛用于评估大语言模型在真实电子健康记录（EHR）环境下的诊断推理能力。研究者通过将精心撰写的临床案例转换为术语验证后的FHIR资源包，使模型直面结构化、可互操作的临床数据，从而精准衡量其在模拟真实医疗工作流中的表现。这一数据集的经典用法聚焦于诊断推理基准测试，尤其关注从非结构化文本到结构化数据转换后模型性能的差异，为CDSS的部署前验证提供了不可或缺的测试床。

衍生相关工作

MedCase-Structured的诞生催生了一系列相关经典工作。在数据生成层面，其多阶段合成管线启发后续研究发展出更细粒度的术语映射与语义一致性验证方法，如基于SapBERT的上下文感知代码修复机制。在基准评估层面，该数据集直接促成了对EHRStruct和FHIR-AgentBench等基准的对比分析，揭示了结构化输入对LLM推理的独特挑战，进而推动了面向FHIR数据格式的模型微调策略研究。此外，围绕诊断隐藏与信息泄露检测，衍生出多项关于临床提示工程和上下文语义扫描的探索性工作，丰富了CDSS安全评估的方法论体系。

数据集最近研究