Textual Time Series Corpus for Sepsis-3 (T2S2)
收藏arXiv2025-04-12 更新2025-04-19 收录
下载链接:
https://www.ncbi.nlm.nih.gov/pmc/tools/oaBCM/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由卡内基梅隆大学和 NIH 的国家图书馆医学部合作构建的,包含2139份开放获取的病例报告,这些报告来源于Pubmed开放获取子集。数据集通过使用大型语言模型构建,旨在定位临床事件的时间,并生成与时间相关的文本时间序列。该数据集的构建旨在解决临床事件时间序列分析的问题,为更精确的疾病预测和治疗提供支持。
This dataset was collaboratively constructed by Carnegie Mellon University and the National Library of Medicine (NLM) under the National Institutes of Health (NIH). It contains 2,139 open-access case reports sourced from the PubMed Open Access Subset. Developed using large language models (LLMs), this dataset is designed to localize the timestamps of clinical events and generate time-related textual temporal sequences. The construction of this dataset aims to address the challenge of clinical event temporal sequence analysis, so as to support more precise disease prediction and treatment.
提供机构:
卡内基梅隆大学
创建时间:
2025-04-12
搜集汇总
数据集介绍

构建方式
在临床医学研究中,脓毒症(Sepsis-3)作为一种复杂的免疫功能障碍综合征,其时间动态特征的精确捕捉对疾病预测和治疗至关重要。T2S2数据集的构建采用了创新的自然语言处理流程,通过大型语言模型(LLMs)从PubMed开放获取子集(PMOA)中筛选出2,139份脓毒症病例报告,并对其进行时间标注。具体流程包括病例报告检测、Sepsis-3表型识别、临床发现提取和时间戳确定。通过对比i2b2/MIMIC-IV的时间线标注和医师专家标注,验证了系统的高恢复率(事件匹配率:O1-preview–0.755,Llama 3.3 70B Instruct–0.753)和强时间顺序一致性(一致性指数:O1-preview–0.932,Llama 3.3 70B Instruct–0.932)。
使用方法
T2S2数据集的使用方法多样,适用于脓毒症的时间动态分析、风险预测模型构建和疾病轨迹表征等研究。研究者可以利用数据集中的时间序列临床发现,结合机器学习算法,开发早期预警系统或优化治疗方案。数据集还支持多模态整合研究,例如将文本特征与结构化数据结合,以提高预测模型的准确性。在使用时,建议研究者首先验证标注质量,并根据具体任务选择合适的LLMs标注结果。此外,数据集的时间戳标注方法(如事件持续时间的起点标记)需在分析中予以考虑,以确保时间逻辑的一致性。
背景与挑战
背景概述
Textual Time Series Corpus for Sepsis-3 (T2S2) 是由卡内基梅隆大学机器学习系的Shahriar Noroozizadeh和美国国立卫生研究院国家医学图书馆的Jeremy C. Weiss于2025年构建的开源临床文本时间序列数据集。该数据集聚焦脓毒症(Sepsis-3)这一危重症医学领域的核心问题,通过从PubMed开放获取子集的2,139份病例报告中提取时间定位的临床发现,填补了结构化电子病历数据在时序粒度和信息完整性上的缺陷。其创新性地采用大语言模型(LLMs)作为标注工具,在临床发现恢复率(O1-preview 0.755)和时间排序一致性(concordance 0.932)方面展现出接近医师标注的效能,为脓毒症进展建模、风险预测等任务提供了首个基于自由文本的细粒度时间序列资源。
当前挑战
该数据集面临双重挑战:在领域问题层面,脓毒症作为异质性综合征,其临床轨迹重构需解决感染源多样性、多器官功能障碍时序关联等复杂问题;在构建过程中,需克服病例报告非结构化文本的时序模糊性(如"3天发热史"对应-72小时或0小时的时间标注分歧),以及LLM标注存在的长时程事件(如"6个月后死亡")时间推理误差。此外,数据集存在PMOA病例报告的发表偏倚问题,且需平衡临床发现特异性(如拆分"肝胰转移"为两个事件)与语义完整性之间的矛盾。
常用场景
经典使用场景
在脓毒症(Sepsis-3)的临床研究中,T2S2数据集被广泛用于构建患者病程的时间序列模型。通过整合临床病例报告中的自由文本信息,该数据集能够提供比传统结构化数据更完整且时间粒度更细的患者轨迹描述。研究人员利用这些数据训练机器学习模型,以识别脓毒症发展的关键时间节点和临床特征,从而支持早期预警系统的开发。
解决学术问题
T2S2数据集解决了脓毒症研究中两个核心学术问题:一是临床文本数据的时间信息提取难题,通过大语言模型(LLMs)实现了对非结构化文本中时间标记临床发现的精准定位;二是弥补了传统结构化电子健康记录(EHR)在脓毒症表型分析中的信息缺失问题,为研究脓毒症的异质性提供了多模态数据支持。该数据集显著提升了脓毒症预测模型的时间敏感性和临床可解释性。
实际应用
在实际医疗场景中,T2S2数据集支持ICU脓毒症患者的实时风险分层。医院可利用其构建的时序模型,结合电子病历中的文本记录(如病程记录、会诊意见)自动生成患者风险评分,辅助临床医生识别即将发生脓毒症恶化的患者。此外,该数据集衍生的方法已被整合到决策支持系统中,用于优化抗生素使用时机和液体复苏策略。
数据集最近研究
最新研究方向
在脓毒症研究领域,T2S2数据集的推出标志着临床文本时间序列分析的重要突破。该数据集通过大语言模型(LLMs)从PubMed开放获取子集的2139份脓毒症病例报告中提取时间定位的临床发现,填补了结构化数据流与临床报告之间的信息鸿沟。前沿研究主要聚焦于三个方向:一是探索LLMs在临床发现时间定位中的潜力与局限性,如研究显示O1-preview和Llama 3.3 70B Instruct模型在事件匹配率(0.755 vs 0.753)和时间排序一致性(0.932)上表现优异;二是开发多模态整合方法以提升时间重建精度,当前工作揭示了仅依赖文本的局限性,为结合实验室指标、影像学等结构化数据提供了改进路径;三是扩展该框架至其他急性疾病研究,如通过时间对数累积分布函数(AULTC)等创新评估指标,适配不同时间尺度的临床事件分析。该数据集通过提供细粒度时间标注的文本特征,为脓毒症预警系统、异质性亚型分析和强化学习治疗策略等热点研究方向提供了新的数据维度。
相关研究论文
- 1Reconstructing Sepsis Trajectories from Clinical Case Reports using LLMs: the Textual Time Series Corpus for Sepsis卡内基梅隆大学 · 2025年
以上内容由遇见数据集搜集并总结生成



