EHRStruct

github2025-12-04 更新2025-12-05 收录

下载链接：

https://github.com/YXNTU/EHRStruct

下载链接

链接失效反馈

官方服务：

资源简介：

EHRStruct是一个全面的基准，用于评估大型语言模型在结构化电子健康记录（EHR）任务上的表现。它定义了6个类别中的11个临床基础任务，提供了来自Synthea和eICU数据集的2,200个标准化评估样本，并支持对通用和医疗领域的大型语言模型进行系统比较。

EHRStruct is a comprehensive benchmark for evaluating the performance of large language models (LLMs) on structured electronic health record (EHR) tasks. It defines 11 fundamental clinical tasks across 6 categories, provides 2,200 standardized evaluation samples sourced from the Synthea and eICU datasets, and enables systematic comparison of large language models across both general and medical domains.

创建时间：

2025-11-10

原始信息汇总

EHRStruct 数据集概述

数据集基本信息

数据集名称：EHRStruct
核心定位：一个用于评估大型语言模型在结构化电子健康记录任务上的综合性基准。
论文状态：已被第40届AAAI人工智能会议（AAAI 2026）接收为口头报告。
论文标题：EHRStruct: A Comprehensive Benchmark Framework for Evaluating Large Language Models on Structured Electronic Health Record Tasks
论文链接：https://arxiv.org/abs/2511.08206
项目主页：https://yxntu.github.io/proEHRStruct/

数据集构成与规模

任务定义：包含11个基于临床需求的任务，涵盖6个类别。
评估样本：提供2,200个标准化评估样本。
数据来源：样本来源于Synthea和eICU两个数据集。

数据来源详情

Synthea数据集
- 性质：开源合成患者生成器生成的完全模拟患者记录，不包含任何可识别或真实世界信息。
- 数据获取：用户可自行生成数据，或直接下载预处理数据。
- 预处理数据下载地址：https://drive.google.com/drive/folders/1-XXajeBbjDJxsX1KZ6MnxRP_qwHoAylS?usp=drive_link
eICU数据集
- 来源：eICU协作研究数据库。
- 原始数据获取：用户必须通过PhysioNet获得授权访问才能下载原始数据。
- 预处理代码：提供在本项目的 eICU/ 目录中。

数据结构与组织

数据集按任务类别组织在 data/ 目录下，每个类别包含100个样本文件（sample_001.csv 至 sample_100.csv）及对应的查询-答案文件。

aggregation/：对应任务 D-R1, D-R2, D-R3
arithmetic/：对应任务 D-R4, D-R5
death/：对应任务 K-R1
disorder/：对应任务 K-R2
filter/：对应任务 D-U1, D-U2
medications/：对应任务 K-R3
snomed/：对应任务 K-U1

评估框架与使用

评估模型范围：支持对通用大语言模型和医学领域大语言模型进行系统比较。
官方模型：提供了所提模型 EHRMaster 的官方实现。
评估流程：包含表格输入、格式转换、模型推理和答案评估四个关键组成部分。
主要评估脚本：位于 Siliconflow/ 目录，支持对Qwen、DeepSeek等系列模型的评估。
评估任务选项：filter (D-U1/U2), aggregation (D-R1/R2/R3), arithmetic (D-R4/R5), snomed (K-U1), death (K-R1), disorder (K-R2), medications (K-R3)。
输入格式选项：txt (纯文本转换), latex (特殊字符分离), hyper (图结构表示), sgen (自然语言描述)。

许可证信息

许可证类型：知识共享署名-非商业性使用 4.0 国际许可证
许可证链接：http://creativecommons.org/licenses/by-nc/4.0/
限制说明：未经作者另行许可，禁止商业用途。

搜集汇总

数据集介绍

构建方式

在电子健康记录结构化任务评估领域，EHRStruct基准的构建遵循严谨的科研范式。其构建过程始于对临床需求的归纳与现有研究的任务提炼，以此为基础定义了涵盖六大类别的十一项临床任务。数据样本主要来源于两个权威数据集：Synthea开源合成患者生成器与eICU协作研究数据库。通过对这些原始数据进行重组与标准化处理，最终形成了包含两千两百个标准化评估样本的基准集合，确保了数据在模拟真实临床场景的同时，避免了个人身份信息的泄露。

特点

EHRStruct基准的核心特征体现在其系统性与临床相关性上。该框架不仅任务覆盖面广，将临床场景与推理层次有机结合，构建了清晰的任务分类体系，更提供了多样化的数据输入格式，包括纯文本、LaTeX特殊字符分离、图结构表示及自然语言描述，以适应不同模型的输入需求。其评估样本均经过标准化处理，虽然与原始数据存在数值差异，但保证了评估结论的整体可靠性，为系统比较通用大语言模型与医学领域专用模型的性能提供了坚实基础。

使用方法

研究人员可通过访问项目代码仓库，利用其提供的标准化评估流程对模型进行系统测试。使用前需配置包含Python、PyTorch及Transformers的相应运行环境。评估时，用户需进入指定目录，通过命令行参数灵活指定待评估的大语言模型、具体任务类别、输入数据转换类型以及是否采用少样本学习策略。代码库已集成对多种主流模型API的调用支持，执行后结果将自动保存至输出目录，便于后续分析与比较。对于商业用途，则需遵循知识共享署名-非商业性使用许可协议或与作者另行协商。

背景与挑战

背景概述

随着大型语言模型在医疗健康领域的应用日益深入，如何系统评估其在结构化电子健康记录任务上的能力成为关键研究议题。EHRStruct基准由南洋理工大学的研究团队于2025年提出，旨在构建一个全面的评估框架，涵盖六大类别共十一项临床任务。该框架基于Synthea和eICU数据集，提供了两千两百个标准化评估样本，为通用及医学领域语言模型的性能比较奠定了科学基础，对推动医疗人工智能的可靠发展具有显著影响力。

当前挑战

在结构化电子健康记录分析领域，模型需应对多表关联、时序推理及临床术语理解等复杂挑战，确保其输出符合医学逻辑与安全规范。EHRStruct构建过程中，研究团队面临数据标准化与隐私保护的平衡难题，需从真实与合成数据源中提取并重构高质量样本，同时设计涵盖不同临床场景与推理层级的任务体系，以全面检验模型的认知与泛化能力。

常用场景

经典使用场景

在医疗人工智能领域，结构化电子健康记录的分析是提升临床决策支持系统效能的核心环节。EHRStruct数据集通过定义涵盖数据驱动与知识驱动两大范畴的11项临床任务，为评估大语言模型在结构化EHR任务上的表现提供了标准化测试平台。其经典使用场景集中于系统性地评测模型在患者数据过滤、临床指标聚合、算术推理以及医学术语映射等任务中的能力，这些场景紧密贴合临床工作流中数据查询与知识提取的实际需求，为模型性能的横向比较奠定了坚实基础。

解决学术问题

该数据集致力于解决医疗人工智能研究中长期存在的关键问题，即缺乏一个统一、全面且基于真实临床逻辑的基准来评估大语言模型处理结构化EHR的能力。它通过构建一个涵盖多层次临床推理（从数据检索到复杂知识应用）的任务分类体系，系统性地揭示了模型在理解表格数据、执行临床计算以及应用医学知识方面的局限性与优势。这一工作为客观衡量模型在真实医疗场景下的实用性与可靠性提供了科学依据，推动了该领域评估方法向标准化、精细化方向发展。

衍生相关工作

围绕EHRStruct基准，已衍生出一系列探索大语言模型在医疗数据分析中应用潜力的经典研究工作。其中，与该数据集一同提出的EHRMaster模型，便是一个针对数据驱动类任务进行专门优化的范例，展示了如何通过任务特定的提示工程与推理策略来显著提升模型在结构化EHR任务上的表现。此外，该基准的发布也激发了社区对通用大模型与医学领域大模型在结构化数据理解能力上的对比研究，以及针对不同EHR数据表示格式（如纯文本、图结构）对模型性能影响的深入探讨，丰富了医疗人工智能的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集