临床数据集

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/ml4oncology/make-clinical-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

从Princess Margaret医院的癌症患者电子病历数据中生成临床数据集，包括实验室测试、症状评分、治疗和药物、人口统计等特征。这些特征可以根据治疗日期、临床访问日期、每周时间点、每日时间点等进行对齐。主要目的是为多个项目提供一个中央管道，用于推荐治疗/药物、估计癌症进展、预测各种不良癌症事件。

A clinical dataset derived from the electronic health record (EHR) data of cancer patients at Princess Margaret Hospital, including features such as laboratory tests, symptom scores, treatments and medications, and demographic information. These features can be aligned according to treatment dates, clinical visit dates, weekly time points, daily time points, and other temporal markers. Its primary purpose is to serve as a central pipeline for multiple projects, supporting tasks including treatment/medication recommendation, cancer progression estimation, and prediction of various adverse cancer events.

创建时间：

2023-07-07

原始信息汇总

数据集概述

数据集名称

Make Clinical Dataset

数据来源

数据来源于Princess Margaret医院的癌症患者电子病历（EMR）。

数据处理

数据集通过处理实验室测试、症状评分、治疗和药物、人口统计等数据，创建了清洗、转换和工程化的特征。这些特征可以按照治疗日期、临床访问日期、每周时间点、每日时间点等进行对齐。

数据集目的

该数据集的主要目的是作为一个中心管道，用于生成可用于多个项目的相同临床数据集，包括推荐治疗/药物、估计癌症进展、预测各种不良癌症事件（如静脉血栓栓塞、细胞减少、急性护理使用、肾毒性、症状恶化、死亡）。

数据存储位置

外部数据存储在Google Drive文件夹ml4o/projects/aim2reduce/data。原始数据存储在由University Health Network托管的HPC4Health集群中。

数据使用指南

克隆仓库并安装必要依赖： bash git clone --recurse-submodules https://github.com/ml4oncology/make-clinical-dataset pip install -r requirements.txt
数据处理脚本： bash python scripts/csv_to_parquet.py python scripts/build_features.py python scripts/combine_features.py [OPTIONAL args]

搜集汇总

数据集介绍

构建方式

该临床数据集的构建基于Princess Margaret医院癌症患者的电子病历（EMR）数据，通过实验室检测、症状评分、治疗和药物记录以及人口统计信息等多维度数据进行整合。数据处理过程中，采用了清洗、转换和特征工程等技术手段，确保数据质量与可用性。特征的构建可根据治疗日期、临床就诊日期、每周或每日时间点等进行对齐，以满足不同研究需求。

特点

此数据集的显著特点在于其多源数据的整合与精细化处理，涵盖了从实验室检测到症状评分的全方位信息。此外，数据集支持多种时间点的特征对齐，使得研究者能够灵活地进行时间序列分析。该数据集不仅适用于治疗推荐和药物预测，还可用于癌症进展评估及不良事件预测，如静脉血栓栓塞、细胞减少症等。

使用方法

使用该数据集时，用户需先通过Git克隆项目并安装相关依赖。随后，可运行提供的Python脚本，如`csv_to_parquet.py`进行数据格式转换，`build_features.py`构建特征，以及`combine_features.py`合并特征。这些脚本支持可选参数，以便用户根据具体需求进行定制化处理。数据集的外部数据存储于Google Drive，原始数据则存放在HPC4Health集群中，用户可根据需要访问。

背景与挑战

背景概述

临床数据集是由Princess Margaret医院治疗癌症患者的电子病历（EMR）数据生成，旨在通过实验室检测、症状评分、治疗和药物使用以及人口统计学信息，构建一个经过清洗、转换和特征工程处理的数据集。该数据集的核心研究问题涵盖了从推荐治疗和药物、估计癌症进展到预测多种不良癌症事件（如静脉血栓栓塞、细胞减少症、急性护理使用、肾毒性、症状恶化和死亡）等多个方面。这一数据集的创建不仅为多项目研究提供了统一的数据处理管道，而且对癌症治疗和患者管理的研究具有深远的影响。

当前挑战

临床数据集的构建面临多重挑战。首先，从电子病历中提取和清洗数据需要处理大量的噪声和缺失值，确保数据的准确性和完整性。其次，特征工程过程中需要将不同来源的数据（如实验室测试、症状评分等）对齐到治疗日期、临床访问日期等时间点，这要求高度的数据处理技术和时间序列分析能力。此外，如何确保数据集在不同项目中的可重复使用性和一致性，也是构建过程中需要解决的关键问题。

常用场景

经典使用场景

临床数据集在癌症患者的电子病历数据基础上，通过实验室检测、症状评分、治疗和药物使用以及人口统计学信息，构建了经过清洗和特征工程处理的数据集。该数据集的经典使用场景包括推荐治疗方案、药物选择、预测癌症进展以及预测不良事件如静脉血栓栓塞、细胞减少症、急性护理需求、肾毒性、症状恶化和死亡等。

衍生相关工作

基于该临床数据集，已衍生出多项经典工作，包括开发癌症治疗推荐系统、构建疾病进展预测模型以及设计不良事件预警机制。这些工作不仅推动了个性化医疗的发展，还为临床试验和药物研发提供了宝贵的数据支持，进一步促进了癌症治疗领域的技术创新和临床实践的进步。

数据集最近研究