Clinical Dataset

github2026-04-23 更新2026-04-29 收录

下载链接：

https://github.com/CHILab1/Esercitazioni-Big-Data

下载链接

链接失效反馈

官方服务：

资源简介：

该临床数据集用于卫生领域的统计分析和预测模型。变量包括人口统计信息、临床信息、生命体征参数、实验室结果、预后评分、患者功能、费用和结果。

This clinical dataset is intended for statistical analysis and predictive modeling in the field of healthcare. Its variables include demographic information, clinical information, vital sign parameters, laboratory results, prognostic scores, patient function, costs, and clinical outcomes.

创建时间：

2026-04-23

原始信息汇总

数据集概述：Esercitazioni-Big-Data Clinical Dataset

这是一个用于卫生领域统计分析和预测模型构建的临床数据集，包含患者的人口统计学信息、临床特征、生命体征、实验室检查结果、预后评分、功能状态、费用和结局等多维度变量。

变量分类与描述

人口统计学变量

age：患者年龄（岁）
sex：性别（M/F）
race：种族
income：收入水平
edu：受教育年限

临床变量

dzgroup：主要诊断组
dzclass：汇总诊断类别
num.co：合并症数量
diabetes：是否患有糖尿病
dementia：是否患有痴呆症
ca：是否患有癌症

生命体征变量

scoma：昏迷水平
meanbp：平均动脉压
hrt：心率
resp：呼吸频率
temp：体温
wblc：白细胞计数

实验室检查变量

alb：白蛋白
bili：胆红素
crea：肌酐
sod：钠
ph：血液pH值
glucose：葡萄糖
bun：尿素氮
urine：尿量
pafi：氧合指数

临床评分变量

aps：急性生理学评分
sps：预后支持评分

患者功能状态变量

adlp：入院前日常生活活动能力
adls：入院时日常生活活动能力
adlsc：分类版本的日常生活活动能力评分

费用变量

charges：住院费用
totcst：总费用
totmcst：医疗总费用
avtisst：日均费用

结局变量

death：死亡状态（0 = 存活，1 = 死亡）

搜集汇总

数据集介绍

构建方式

该临床数据集整合了来自医疗机构的患者多维度信息，涵盖了人口统计学特征、主要诊断分组与合并症、生命体征参数、实验室检测指标、临床预后评分、患者日常功能状态、医疗费用以及最终结局等八大类变量。数据采集过程遵循严格的临床记录规范，将连续型变量如年龄、实验室数值与分类型变量如性别、种族、诊断类别进行统一编码与结构化存储，形成了适用于统计分析与预测建模的高质量数据集合。

特点

该数据集最显著的特点在于其变量的全面性与临床关联性。从人口经济学背景到急性生理学评分（APS）与支持预后评分（SPS），从入院前与入院时的日常生活活动能力（ADL）到住院期间详细的费用构成，几乎所有可能影响患者预后的关键因素均被纳入。特别是包含了如昏迷水平、平均动脉压、白细胞计数等反映病情危重程度的生命体征，以及白蛋白、胆红素、肌酐等重要实验室指标，为构建复杂的临床预测模型提供了丰富的特征空间。

使用方法

该数据集可直接用于统计分析与机器学习建模。用户可通过Python的pandas或R语言的read.csv等工具加载数据后，利用年龄、性别、诊断类别等基础变量进行描述性分析，或选取生命体征、实验室参数与评分作为特征，以院内死亡（death）为核心标签，构建逻辑回归、随机森林或梯度提升树等分类模型，预测患者死亡风险。此外，费用相关变量如总费用与日均费用可支持卫生经济学分析，而功能状态评分的变化则可用于评估治疗效果与康复进展。

背景与挑战

背景概述

临床数据集（Clinical Dataset）诞生于大数据与精准医疗深度融合的背景下，由意大利研究团队整理并发布于GitHub平台，旨在为统计分析与医疗预测模型提供结构化数据支撑。该数据集囊括患者人口统计学特征、诊断分组、生命体征、实验室检查结果、预后评分、日常生活功能、住院费用及生存结局等多维变量，核心研究问题聚焦于利用临床指标构建死亡风险预测模型，评估疾病严重程度与医疗资源消耗的关联性。自创建以来，该数据集已为重症监护、卫生经济学及临床决策支持领域的研究者提供了基准测试资源，推动了基于机器学习的医疗预后分析从理论探索向实证研究的转化。

当前挑战

该数据集面临的挑战首先在于领域问题的复杂性：医疗数据固有的异质性、缺失值比例高（如实验室指标不全）、变量间非线性交互效应显著，使得单一模型难以准确捕获死亡风险的多因素驱动机制。其次，构建过程中遭遇的挑战包括数据整合难度大——不同医疗机构的诊断编码标准不统一、人口统计学变量采集粒度差异、以及时间序列中生命体征与实验室结果的采样频率不一致，导致后续特征工程需处理大量数据对齐与标准化问题。此外，隐私法规限制下公开数据的可共享性、成本变量中的潜在偏倚（如地区医疗定价差异），也制约了模型泛化能力的验证与跨中心推广。

常用场景

经典使用场景

在临床预测建模领域，该数据集被广泛用于构建患者预后评估模型。研究者利用人口统计学特征、生命体征参数、实验室检查结果及临床评分等多维度变量，预测重症患者的院内死亡率。通过逻辑回归、随机森林或梯度提升机等机器学习算法，可以将急性生理学评分、血氧合指数、血清肌酐水平等关键指标作为输入特征，拟合出高精度的死亡风险预测模型，为临床决策提供量化依据。

实际应用

在实际临床场景中，该数据集支持构建急诊分诊辅助系统与ICU资源分配优化工具。基于患者入院时的生命体征和实验室指标，模型可快速区分高危与低危人群，帮助医护人员优先处理紧急病例。此外，通过分析住院费用与预后结局的关系，医疗机构能够评估不同诊疗路径的成本效益，从而制定更经济的临床方案，降低不必要的医疗支出。

衍生相关工作

该数据集衍生了一系列经典工作，包括基于深度学习的生存分析模型、可解释性框架下的特征重要性排序研究，以及跨数据集泛化性验证。例如，有学者引入多任务学习范式同时预测死亡概率与住院时长，另有工作利用SHAP值可视化解读年龄与合并症对预后的非线性影响。这些研究共同拓展了临床数据挖掘的方法论边界，成为后续因果推断与个性化治疗推荐系统的重要基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集