MIMIC-IV-Ext-22MCTS

Name: MIMIC-IV-Ext-22MCTS
Creator: 美国国立医学图书馆
Published: 2025-05-02 03:40:27
License: 暂无描述

arXiv2025-05-02 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.00827v1

下载链接

链接失效反馈

官方服务：

资源简介：

MIMIC-IV-Ext-22MCTS是一个包含22588586个临床事件的时间序列数据集，来源于著名的MIMIC-IV-Note。该数据集由267284份出院摘要中提取的临床事件及其时间戳组成，旨在解决医疗保健中基于机器学习的风险预测问题。该数据集通过分段、上下文BM25检索和语义搜索等方法，将出院摘要分割成小块，并利用大型语言模型Llama-3.1-8B进行标注，从而获得具有时间信息的临床事件。数据集已在医疗问答、临床试验匹配等实际医疗任务中显示出显著的效果。

MIMIC-IV-Ext-22MCTS is a time-series dataset containing 22,588,586 clinical events, derived from the well-known MIMIC-IV-Note. It consists of clinical events and their timestamps extracted from 267,284 discharge summaries, and is designed to address machine learning-based risk prediction issues in healthcare. This dataset splits discharge summaries into chunks via methods including segmentation, contextual BM25 retrieval and semantic search, and uses the large language model Llama-3.1-8B for annotation to obtain clinical events with temporal information. The dataset has demonstrated notable performance in practical medical tasks such as medical question answering and clinical trial matching.

提供机构：

美国国立医学图书馆

创建时间：

2025-05-02

搜集汇总

数据集介绍

构建方式

MIMIC-IV-Ext-22MCTS数据集构建于著名的MIMIC-IV-Note数据集之上，通过创新的框架从出院摘要中提取临床事件及其时间戳。具体而言，首先将冗长的出院摘要分割为小型文本块，随后运用上下文BM25和语义搜索技术筛选出高概率包含临床事件的文本块。最后，通过精心设计的提示策略，利用Llama-3.1-8B模型识别或推断这些事件的时间信息。这一过程不仅克服了原始数据非结构化和时间信息缺失的挑战，还确保了数据的高质量和时效性。

特点

MIMIC-IV-Ext-22MCTS数据集包含22,588,586个临床事件及其时间戳，覆盖267,284份出院摘要。其显著特点在于每个事件均附带相对时间戳（以小时为单位），便于追踪疾病进展和患者轨迹。数据集采用[TIME]和[EVENT]的标准化格式，事件描述简洁（平均3个词），时间戳分为历史事件（36.99%）、入院期间事件（51.19%）和出院后事件（11.80%）三类。此外，时间戳通过离散化分箱（如[-∞, -60, 0, 60, ∞]）增强模型处理的可行性。

使用方法

该数据集适用于临床风险预测、因果推理和时序建模研究。使用时可加载标准化的事件-时间戳对，通过BERT或GPT-2等模型进行微调。对于时间敏感任务，建议将连续时间戳映射至离散区间（Time bin），并联合文本嵌入与时间嵌入进行特征融合。在医疗问答任务中，微调后的Temporal BERT模型准确率提升10%；临床试验匹配任务中NDCG@100提升至35.15。GPT-2经微调后生成的临床建议更具可靠性。数据已按患者ID划分训练/验证/测试集（80%/10%/10%），确保评估无偏。

背景与挑战

背景概述

MIMIC-IV-Ext-22MCTS是由美国国家医学图书馆（NLM）等机构的研究团队于2025年发布的大规模临床时间序列数据集，包含22,588,586个临床事件及其时间戳信息，源自267,284份出院摘要。该数据集旨在解决临床风险预测中的关键问题，即如何从非结构化的电子健康记录（EHR）中提取高质量的时序临床事件数据。其核心研究问题聚焦于通过自然语言处理技术，从冗长的出院摘要中精准识别临床事件并推断其时间信息，从而支持个性化医疗和疾病进展追踪。该数据集通过结合上下文检索和大语言模型（如Llama-3.1-8B）的标注框架，显著提升了BERT和GPT-2等模型在医疗问答、临床试验匹配等任务中的性能，对医疗人工智能领域具有重要影响力。

当前挑战

MIMIC-IV-Ext-22MCTS在构建和应用中面临多重挑战。领域问题方面，传统命名实体识别（NER）模型受限于预定义医学词汇（如UMLS），难以覆盖新兴临床概念；且出院摘要中时间信息常隐含或缺失，需依赖复杂推理。构建过程中的挑战包括：1）处理超长文本（平均2,267个标记），需设计分块和上下文检索策略以突破BERT等模型的512标记限制；2）避免大语言模型（LLM）的幻觉问题，通过检索增强生成（RAG）和专家设计的提示策略确保事件与时间戳标注的可靠性；3）时间标注需统一参考点（如入院时间），并处理负值时间戳和历史事件，这对模型的时间推理能力提出极高要求。

常用场景

经典使用场景

MIMIC-IV-Ext-22MCTS数据集在临床风险预测和疾病进展追踪领域具有广泛的应用。通过整合22,588,586个临床时间序列事件及其相关时间戳，该数据集为研究人员提供了丰富的患者轨迹信息。在经典使用场景中，研究人员可以利用这些时间序列数据训练机器学习模型，预测患者未来的健康状况或疾病发展趋势。例如，通过分析患者在住院期间的关键临床事件及其发生时间，可以构建预测模型来评估患者出院后的再入院风险。

衍生相关工作

基于MIMIC-IV-Ext-22MCTS数据集，已经衍生出多项重要研究工作。最突出的是对BERT和GPT-2模型的微调，这些模型在医疗问答和临床试验匹配任务中表现出显著改进。此外，研究人员开发了新型时序嵌入方法，将离散时间信息整合到深度学习模型中。数据集还促进了检索增强生成(RAG)技术在医疗领域的应用，提高了大型语言模型在临床任务中的可靠性。这些衍生工作共同推动了医疗人工智能的发展。

数据集最近研究