MeExam

Name: MeExam
Creator: 西安电子科技大学计算机科学与技术学院
Published: 2025-05-12 18:47:59
License: 暂无描述

arXiv2025-05-12 更新2025-05-14 收录

下载链接：

http://arxiv.org/abs/2505.07431v1

下载链接

链接失效反馈

官方服务：

资源简介：

MeExam是一个为医疗检查推荐任务量身定制的综合数据集，它具有时序性和异构性，专为解决医疗检查推荐问题而设计。数据集包括患者的序列数据和属性数据，旨在评估患者的健康状况并推荐最合适的检查项目。MeExam数据集的创建旨在支持医疗检查推荐研究，并通过实际医疗数据集的广泛实验，验证了所提出方法的有效性。

MeExam is a comprehensive dataset tailored specifically for medical examination recommendation tasks, which exhibits temporal and heterogeneous characteristics and is specially designed to address core challenges in medical examination recommendation. The dataset includes sequential data and attribute data of patients, aiming to assess patients' health conditions and recommend the most appropriate examination items. The MeExam dataset was developed to support research on medical examination recommendation, and extensive experiments conducted using this real-world medical dataset have verified the effectiveness of the proposed methods.

提供机构：

西安电子科技大学计算机科学与技术学院

创建时间：

2025-05-12

搜集汇总

数据集介绍

构建方式

MeExam数据集的构建采用了多阶段精细处理流程，首先通过命名实体识别技术从MIMIC-III数据库的非结构化医疗文本中提取疾病、症状和检查项目等关键实体，并保留其时间顺序属性。其次，采用模板匹配策略补充患者年龄和性别等人口统计学信息。最后利用大语言模型进行实体消歧与标准化处理，通过精心设计的提示模板实现高效数据清洗，形成包含37,774名患者记录的异构时序数据集。该构建方法创新性地结合了弱监督NER框架NEEDLE与ClinicalBERT模型，在减少人工标注成本的同时确保了临床术语识别的准确性。

特点

MeExam数据集具有显著的异构性和时序性特征，包含1,698种疾病、409种症状和701项检查项目构成的956,880个实体，平均每位患者拥有22.33个实体记录。其异构性体现在疾病-症状-检查的三元实体结构及人口统计学属性的融合，而时序性则通过严格保持临床事件发生顺序来实现。数据集特别保留了重复检查项目以反映真实诊疗模式，如患者连续MRI检查记录。年龄分布呈现典型医疗人群特征（4-99岁），性别比例均衡，为建模患者健康风险轨迹提供了多维度的时空关联信息。

使用方法

该数据集专为医疗检查推荐任务设计，采用留一法划分训练测试集，以最后一次检查交互作为测试样本。研究建议使用HR@K和NDCG@K作为核心评估指标，通过负采样策略降低计算复杂度。使用时需注意处理实体间的异构关系，可结合扩散模型进行噪声过滤，并利用时空图神经网络捕捉患者历史记录中的复杂依赖。数据集支持端到端训练框架，其内置的时序标记便于构建基于Transformer的序列模型，而实体类型标注则为关系感知的图注意力网络提供了先验知识。

背景与挑战

背景概述

MeExam数据集由西安电子科技大学的研究团队于2025年提出，旨在解决医疗诊断过程中智能检查推荐的关键问题。作为首个专注于医学检查推荐任务的基准数据集，MeExam填补了现有医疗推荐系统主要集中于治疗环节（如药物推荐）的研究空白。该数据集基于MIMIC-III临床数据库构建，包含37,774名患者的异构时序数据，涵盖1,698种疾病、409种症状和701项检查项目，并整合了患者年龄、性别等人口统计学特征。其创新性地采用扩散模型和时空图神经网络技术，为医疗AI领域提供了诊断决策支持的新范式，对优化医疗资源配置、提升临床诊断效率具有重要价值。

当前挑战

MeExam数据集面临双重挑战：在领域问题层面，医学检查推荐需处理患者历史记录中疾病、症状与检查项目间复杂的异构交互关系，且医疗实体的时空相关性呈现非规则特性，这对传统序列建模方法提出严峻考验；在构建过程中，原始医疗文本存在实体冗余和语义歧义，需通过Few-shot NER框架和大型语言模型进行多层次清洗与标准化。此外，检查项目的临床合理性验证、患者隐私保护下的数据脱敏，以及多模态医疗信息的有效融合，均为数据集构建过程中的核心难点。

常用场景

经典使用场景

在医疗健康领域，MeExam数据集为医疗检查推荐系统提供了关键支持。该数据集通过整合患者的电子健康记录（EHRs），包括疾病、症状和检查项目等多源异构数据，为研究人员构建智能推荐模型提供了丰富的基础。其经典使用场景包括基于患者历史医疗记录的个性化检查推荐，帮助医生在诊断过程中快速确定最合适的检查项目，从而优化医疗资源的分配和使用效率。

实际应用

在实际应用中，MeExam数据集可部署于医院信息系统，辅助临床决策。例如，当患者出现特定症状组合时，系统能基于相似病例的检查路径推荐最优检测方案，减少不必要的检查。该数据集还能用于医疗资源紧张地区的远程诊断支持，通过分析历史数据为基层医生提供检查建议，显著提升医疗服务的可及性和质量。

衍生相关工作

围绕MeExam数据集衍生的经典工作包括：1）基于扩散模型的医疗数据去噪方法，被拓展应用于药物推荐领域；2）时空图KANsformer架构启发了多模态医疗时序预测模型的设计；3）数据集构建框架推动了临床文本的弱监督实体识别研究。这些工作共同推动了智能医疗推荐系统从理论到实践的转化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集