five

MIMIC-IV-Ext-22MCTS

收藏
arXiv2025-05-02 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.00827v1
下载链接
链接失效反馈
官方服务:
资源简介:
MIMIC-IV-Ext-22MCTS是一个包含22588586个临床事件的时间序列数据集,来源于著名的MIMIC-IV-Note。该数据集由267284份出院摘要中提取的临床事件及其时间戳组成,旨在解决医疗保健中基于机器学习的风险预测问题。该数据集通过分段、上下文BM25检索和语义搜索等方法,将出院摘要分割成小块,并利用大型语言模型Llama-3.1-8B进行标注,从而获得具有时间信息的临床事件。数据集已在医疗问答、临床试验匹配等实际医疗任务中显示出显著的效果。

MIMIC-IV-Ext-22MCTS is a time-series dataset containing 22,588,586 clinical events, derived from the well-known MIMIC-IV-Note. It consists of clinical events and their timestamps extracted from 267,284 discharge summaries, and is designed to address machine learning-based risk prediction issues in healthcare. This dataset splits discharge summaries into chunks via methods including segmentation, contextual BM25 retrieval and semantic search, and uses the large language model Llama-3.1-8B for annotation to obtain clinical events with temporal information. The dataset has demonstrated notable performance in practical medical tasks such as medical question answering and clinical trial matching.
提供机构:
美国国立医学图书馆
创建时间:
2025-05-02
搜集汇总
数据集介绍
main_image_url
构建方式
MIMIC-IV-Ext-22MCTS数据集构建于著名的MIMIC-IV-Note数据集之上,通过创新的框架从出院摘要中提取临床事件及其时间戳。具体而言,首先将冗长的出院摘要分割为小型文本块,随后运用上下文BM25和语义搜索技术筛选出高概率包含临床事件的文本块。最后,通过精心设计的提示策略,利用Llama-3.1-8B模型识别或推断这些事件的时间信息。这一过程不仅克服了原始数据非结构化和时间信息缺失的挑战,还确保了数据的高质量和时效性。
特点
MIMIC-IV-Ext-22MCTS数据集包含22,588,586个临床事件及其时间戳,覆盖267,284份出院摘要。其显著特点在于每个事件均附带相对时间戳(以小时为单位),便于追踪疾病进展和患者轨迹。数据集采用[TIME]和[EVENT]的标准化格式,事件描述简洁(平均3个词),时间戳分为历史事件(36.99%)、入院期间事件(51.19%)和出院后事件(11.80%)三类。此外,时间戳通过离散化分箱(如[-∞, -60, 0, 60, ∞])增强模型处理的可行性。
使用方法
该数据集适用于临床风险预测、因果推理和时序建模研究。使用时可加载标准化的事件-时间戳对,通过BERT或GPT-2等模型进行微调。对于时间敏感任务,建议将连续时间戳映射至离散区间(Time bin),并联合文本嵌入与时间嵌入进行特征融合。在医疗问答任务中,微调后的Temporal BERT模型准确率提升10%;临床试验匹配任务中NDCG@100提升至35.15。GPT-2经微调后生成的临床建议更具可靠性。数据已按患者ID划分训练/验证/测试集(80%/10%/10%),确保评估无偏。
背景与挑战
背景概述
MIMIC-IV-Ext-22MCTS是由美国国家医学图书馆(NLM)等机构的研究团队于2025年发布的大规模临床时间序列数据集,包含22,588,586个临床事件及其时间戳信息,源自267,284份出院摘要。该数据集旨在解决临床风险预测中的关键问题,即如何从非结构化的电子健康记录(EHR)中提取高质量的时序临床事件数据。其核心研究问题聚焦于通过自然语言处理技术,从冗长的出院摘要中精准识别临床事件并推断其时间信息,从而支持个性化医疗和疾病进展追踪。该数据集通过结合上下文检索和大语言模型(如Llama-3.1-8B)的标注框架,显著提升了BERT和GPT-2等模型在医疗问答、临床试验匹配等任务中的性能,对医疗人工智能领域具有重要影响力。
当前挑战
MIMIC-IV-Ext-22MCTS在构建和应用中面临多重挑战。领域问题方面,传统命名实体识别(NER)模型受限于预定义医学词汇(如UMLS),难以覆盖新兴临床概念;且出院摘要中时间信息常隐含或缺失,需依赖复杂推理。构建过程中的挑战包括:1)处理超长文本(平均2,267个标记),需设计分块和上下文检索策略以突破BERT等模型的512标记限制;2)避免大语言模型(LLM)的幻觉问题,通过检索增强生成(RAG)和专家设计的提示策略确保事件与时间戳标注的可靠性;3)时间标注需统一参考点(如入院时间),并处理负值时间戳和历史事件,这对模型的时间推理能力提出极高要求。
常用场景
经典使用场景
MIMIC-IV-Ext-22MCTS数据集在临床风险预测和疾病进展追踪领域具有广泛的应用。通过整合22,588,586个临床时间序列事件及其相关时间戳,该数据集为研究人员提供了丰富的患者轨迹信息。在经典使用场景中,研究人员可以利用这些时间序列数据训练机器学习模型,预测患者未来的健康状况或疾病发展趋势。例如,通过分析患者在住院期间的关键临床事件及其发生时间,可以构建预测模型来评估患者出院后的再入院风险。
衍生相关工作
基于MIMIC-IV-Ext-22MCTS数据集,已经衍生出多项重要研究工作。最突出的是对BERT和GPT-2模型的微调,这些模型在医疗问答和临床试验匹配任务中表现出显著改进。此外,研究人员开发了新型时序嵌入方法,将离散时间信息整合到深度学习模型中。数据集还促进了检索增强生成(RAG)技术在医疗领域的应用,提高了大型语言模型在临床任务中的可靠性。这些衍生工作共同推动了医疗人工智能的发展。
数据集最近研究
最新研究方向
近年来,MIMIC-IV-Ext-22MCTS数据集在临床风险预测领域引起了广泛关注。该数据集通过提取22,588,586个临床时间序列事件及其时间戳,为机器学习模型提供了丰富的训练资源。前沿研究主要集中在利用该数据集优化自然语言处理模型,如BERT和GPT-2,以提升医疗问答和临床试验匹配的准确性。此外,结合大型语言模型(如Llama-3.1-8B)进行事件和时间戳的自动标注,成为研究热点。这一方向不仅推动了临床决策支持系统的发展,还为个性化医疗和疾病进展跟踪提供了新的研究工具。数据集的应用显著提升了模型的性能,例如在医疗问答任务中准确率提高了10%,临床试验匹配任务中提升了3%。
相关研究论文
  • 1
    MIMIC-\RNum{4}-Ext-22MCTS: A 22 Millions-Event Temporal Clinical Time-Series Dataset with Relative Timestamp for Risk Prediction美国国立医学图书馆 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作