hospital-readmission-risk-data

Hugging Face2025-11-29 更新2025-11-30 收录

下载链接：

https://huggingface.co/datasets/auphong2707/hospital-readmission-risk-data

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过预处理的糖尿病患者医院再入院风险数据集，用于预测30天内医院再入院情况，包含101,766个样本和113个特征。

This is a preprocessed hospital readmission risk dataset for diabetic patients, which is used to predict hospital readmission within 30 days. The dataset comprises 101,766 samples and 113 features.

创建时间：

2025-11-27

原始信息汇总

医院再入院风险预测数据集概述

数据集描述

该数据集包含糖尿病患者的预处理医院再入院数据，旨在预测30天内医院再入院情况，以实现主动干预。

数据集摘要

总样本数: 101,766
特征数量: 113
目标变量: 二元分类（0=未再入院，1=30天内再入院）
类别分布: 未再入院：90,409（88.8%），再入院：11,357（11.2%）

数据划分

训练集: 71,236样本
验证集: 15,265样本
测试集: 15,265样本

预处理方法

缺失值处理: 采用分组策略进行中位数/众数填补
数据验证: 检查数值范围、数据类型和领域约束
异常值处理: 基于IQR的缩尾处理
特征工程:
- 诊断代码聚合成临床类别
- 使用统计特征
- 药物复杂度评分
- 年龄/BMI分类分桶
- 交互特征
编码: 低基数特征使用独热编码，高基数特征使用CV安全目标编码
标准化: 应用StandardScaler

使用方式

python import pandas as pd

加载完整数据集

data = pd.read_csv(hospital_readmission_full.csv) X = data.drop(target, axis=1) y = data[target]

或加载划分数据集

train = pd.read_csv(splits/train.csv) val = pd.read_csv(splits/validation.csv) test = pd.read_csv(splits/test.csv)

引用信息

原始数据集：Diabetes 130-US Hospitals for Years 1999-2008 UCI机器学习仓库 https://archive.ics.uci.edu/dataset/296/diabetes-130-us-hospitals-for-years-1999-2008

许可证

遵循UCI机器学习仓库原始数据集许可证

搜集汇总

数据集介绍

构建方式

在医疗数据分析领域，该数据集源自UCI机器学习资源库的糖尿病住院记录，经过系统化预处理构建而成。原始数据通过中位数与众数分组填补处理缺失值，采用四分位距缩尾法修正异常观测，并严格验证数值范围与数据类型一致性。特征工程阶段整合了诊断代码临床分类、用药复杂度评分及人口统计学分箱等维度，最终通过独热编码与目标编码完成特征转换，形成包含101,766条样本的标准化数据集。

特点

本数据集聚焦糖尿病患者的再入院风险预测，其显著特征在于113个多维特征涵盖临床诊疗、药物使用及人口统计等多重维度。数据分布呈现典型的类别不均衡特性，正例样本仅占11.2%，精准反映了医疗场景中罕见事件检测的挑战。经过标准化处理的数值特征与保留临床语义的分类特征相结合，为构建鲁棒的预测模型提供了理想的数据基础。

使用方法

研究者可通过Pandas库直接加载完整数据集或预划分的训练集、验证集与测试集进行模型开发。特征矩阵与标签列的分离设计支持主流机器学习框架的即插即用，71,236条训练样本与各15,265条的验证测试集为模型迭代与评估提供了充足数据支撑。该数据结构兼容scikit-learn等工具的标准接口，便于开展特征重要性分析与预测性能验证。

背景与挑战

背景概述

糖尿病患者的再入院风险预测作为医疗数据分析的重要课题，其研究可追溯至21世纪初医疗信息化浪潮。该数据集源于UCI机器学习库中1999-2008年间美国130家医院的糖尿病诊疗记录，由跨学科研究团队通过系统化数据采集构建而成。其核心研究目标在于建立30天内再入院风险的精准预测模型，为临床决策支持系统提供数据基础，对降低医疗资源消耗、改善患者预后具有显著实践价值。

当前挑战

医疗再入院预测面临类别不平衡与特征异构双重挑战：原始数据中仅11.2%的再入院样本导致模型易受多数类主导，而113维特征涵盖诊断编码、用药复杂度等异构信息需进行临床语义聚合。在构建过程中，缺失值的群体差异处理要求领域知识指导，高基数特征的编码策略需兼顾维度控制与信息保留，时序性医疗事件的表征学习更是考验特征工程的深度。

常用场景

经典使用场景

在医疗数据分析领域，该数据集被广泛应用于构建糖尿病患者的30天再入院风险预测模型。通过整合患者诊断信息、用药复杂度和临床特征等113个维度变量，研究人员能够训练机器学习算法识别高危人群，为临床决策提供数据支持。这种预测框架已成为医疗风险建模的典范应用，显著提升了医疗资源分配的精准度。

衍生相关工作

基于该数据集衍生的研究催生了多项医疗AI重要成果，包括融合图神经网络的跨医院风险评估框架，以及结合对抗训练的领域自适应模型。这些工作通过创新性地处理医疗数据时空异质性，推动了联邦学习在医疗隐私保护场景的应用，为多中心医疗协作研究奠定了方法论基础。

数据集最近研究