hospital-readmission-risk-data
收藏Hugging Face2025-11-29 更新2025-11-30 收录
下载链接:
https://huggingface.co/datasets/auphong2707/hospital-readmission-risk-data
下载链接
链接失效反馈官方服务:
资源简介:
这是一个经过预处理的糖尿病患者医院再入院风险数据集,用于预测30天内医院再入院情况,包含101,766个样本和113个特征。
This is a preprocessed hospital readmission risk dataset for diabetic patients, which is used to predict hospital readmission within 30 days. The dataset comprises 101,766 samples and 113 features.
创建时间:
2025-11-27
原始信息汇总
医院再入院风险预测数据集概述
数据集描述
该数据集包含糖尿病患者的预处理医院再入院数据,旨在预测30天内医院再入院情况,以实现主动干预。
数据集摘要
- 总样本数: 101,766
- 特征数量: 113
- 目标变量: 二元分类(0=未再入院,1=30天内再入院)
- 类别分布: 未再入院:90,409(88.8%),再入院:11,357(11.2%)
数据划分
- 训练集: 71,236样本
- 验证集: 15,265样本
- 测试集: 15,265样本
预处理方法
- 缺失值处理: 采用分组策略进行中位数/众数填补
- 数据验证: 检查数值范围、数据类型和领域约束
- 异常值处理: 基于IQR的缩尾处理
- 特征工程:
- 诊断代码聚合成临床类别
- 使用统计特征
- 药物复杂度评分
- 年龄/BMI分类分桶
- 交互特征
- 编码: 低基数特征使用独热编码,高基数特征使用CV安全目标编码
- 标准化: 应用StandardScaler
使用方式
python import pandas as pd
加载完整数据集
data = pd.read_csv(hospital_readmission_full.csv) X = data.drop(target, axis=1) y = data[target]
或加载划分数据集
train = pd.read_csv(splits/train.csv) val = pd.read_csv(splits/validation.csv) test = pd.read_csv(splits/test.csv)
引用信息
原始数据集:Diabetes 130-US Hospitals for Years 1999-2008 UCI机器学习仓库 https://archive.ics.uci.edu/dataset/296/diabetes-130-us-hospitals-for-years-1999-2008
许可证
遵循UCI机器学习仓库原始数据集许可证
搜集汇总
数据集介绍

构建方式
在医疗数据分析领域,该数据集源自UCI机器学习资源库的糖尿病住院记录,经过系统化预处理构建而成。原始数据通过中位数与众数分组填补处理缺失值,采用四分位距缩尾法修正异常观测,并严格验证数值范围与数据类型一致性。特征工程阶段整合了诊断代码临床分类、用药复杂度评分及人口统计学分箱等维度,最终通过独热编码与目标编码完成特征转换,形成包含101,766条样本的标准化数据集。
特点
本数据集聚焦糖尿病患者的再入院风险预测,其显著特征在于113个多维特征涵盖临床诊疗、药物使用及人口统计等多重维度。数据分布呈现典型的类别不均衡特性,正例样本仅占11.2%,精准反映了医疗场景中罕见事件检测的挑战。经过标准化处理的数值特征与保留临床语义的分类特征相结合,为构建鲁棒的预测模型提供了理想的数据基础。
使用方法
研究者可通过Pandas库直接加载完整数据集或预划分的训练集、验证集与测试集进行模型开发。特征矩阵与标签列的分离设计支持主流机器学习框架的即插即用,71,236条训练样本与各15,265条的验证测试集为模型迭代与评估提供了充足数据支撑。该数据结构兼容scikit-learn等工具的标准接口,便于开展特征重要性分析与预测性能验证。
背景与挑战
背景概述
糖尿病患者的再入院风险预测作为医疗数据分析的重要课题,其研究可追溯至21世纪初医疗信息化浪潮。该数据集源于UCI机器学习库中1999-2008年间美国130家医院的糖尿病诊疗记录,由跨学科研究团队通过系统化数据采集构建而成。其核心研究目标在于建立30天内再入院风险的精准预测模型,为临床决策支持系统提供数据基础,对降低医疗资源消耗、改善患者预后具有显著实践价值。
当前挑战
医疗再入院预测面临类别不平衡与特征异构双重挑战:原始数据中仅11.2%的再入院样本导致模型易受多数类主导,而113维特征涵盖诊断编码、用药复杂度等异构信息需进行临床语义聚合。在构建过程中,缺失值的群体差异处理要求领域知识指导,高基数特征的编码策略需兼顾维度控制与信息保留,时序性医疗事件的表征学习更是考验特征工程的深度。
常用场景
经典使用场景
在医疗数据分析领域,该数据集被广泛应用于构建糖尿病患者的30天再入院风险预测模型。通过整合患者诊断信息、用药复杂度和临床特征等113个维度变量,研究人员能够训练机器学习算法识别高危人群,为临床决策提供数据支持。这种预测框架已成为医疗风险建模的典范应用,显著提升了医疗资源分配的精准度。
衍生相关工作
基于该数据集衍生的研究催生了多项医疗AI重要成果,包括融合图神经网络的跨医院风险评估框架,以及结合对抗训练的领域自适应模型。这些工作通过创新性地处理医疗数据时空异质性,推动了联邦学习在医疗隐私保护场景的应用,为多中心医疗协作研究奠定了方法论基础。
数据集最近研究
最新研究方向
在医疗数据分析领域,糖尿病患者的再入院风险预测已成为临床决策支持系统的关键研究方向。当前研究聚焦于融合时序建模与多模态数据,通过深度神经网络解析电子健康记录中的动态诊疗轨迹,同时结合图神经网络挖掘患者间的隐性关联模式。随着联邦学习技术的突破,跨机构协作建模在保障数据隐私的前提下显著提升了模型泛化能力,而可解释性人工智能则通过特征归因分析揭示关键临床指标,为精准干预提供理论依据。这些进展不仅推动了个性化医疗的发展,更在医疗资源优化配置层面展现出深远影响。
以上内容由遇见数据集搜集并总结生成



