hospital patient records dataset

github2026-03-21 更新2026-03-22 收录

下载链接：

https://github.com/databygentle/hospital-patient-records-data-cleaning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含医院患者记录，其中输入变量用于预测结果——患者住院时间，以提高医疗管理效率。数据经过检查，发现了一些数据质量问题，如数据类型不匹配和少量缺失值，但没有重复值。数据质量问题已解决，数据集现已准备好进行分析。原始数据源来自Analytics Vidhya网站，但通过Kaggle获取，包含318,438行和18列。特征包括医院可用额外房间数量、入院类型和入院时记录的疾病严重程度，以预测患者住院时间。

This dataset contains hospital patient records, with input variables designed to predict the target outcome: length of hospital stay, to enhance healthcare management efficiency. The dataset was inspected, and multiple data quality issues were detected, including mismatched data types and a small number of missing values, yet no duplicate records were found. All identified data quality issues have been resolved, and the dataset is now ready for analysis. The original data source originated from the Analytics Vidhya website, but the dataset was obtained via Kaggle, consisting of 318,438 rows and 18 columns. The features include the number of available extra hospital rooms, admission type, and disease severity recorded at admission, which are utilized to predict patients' length of hospital stay.

创建时间：

2026-03-21

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Hospital Patient Records Data Cleaning
原始来源：Analytics Vidhya 网站（通过 Kaggle 获取）
数据规模：318,438 行，18 列
核心用途：利用输入变量预测患者住院时长（Stay），以提升医疗管理效率

数据内容与特征

关键特征：
- Available Extra Rooms in Hospital：医院可用额外房间数量
- Type of Admission：医院登记的就诊类型
- Severity of Illness：入院时记录的病情严重程度
预测标签：Stay（患者住院时长）

数据质量处理

发现的问题

存在少量缺失值
未发现重复行
检测到两处数据类型不匹配

缺失值处理

缺失类型与归因：
- City_Code_Patient：MNAR（非随机缺失，如患者居住地无城市代码）
- Stay：MAR（随机缺失，可能受就诊类型和可用房间数影响）
- Bed Grade、patientid 等：MCAR（完全随机缺失，比例小且无明确模式）
填补方法：
- Bed Grade：均值填补（数据呈正态分布）
- patientid、City_Code_Patient、Visitors with Patient：中位数填补（存在异常值）
- Type of Admission、Severity of Illness、Age、Stay：众数填补（分类变量）

数据类型修正

Bed Grade 和 City_Code_Patient 原为浮点型，已转换为整型
City_Code_Patient 是数据集中缺失值比例最高的列

处理流程与工具

主要工具：Python（在 Anaconda Jupyter Notebook 环境中运行）
核心库：pandas（数据清洗与验证）、numpy（数值与数组运算）
处理步骤：
1. 导入库并加载数据集
2. 数据概览与字典理解
3. 数据剖析（结构、内容、类型）
4. 统计摘要分析与分布评估
5. 缺失值比例计算
6. 重复行检测
7. 缺失值填补
8. 数据类型转换
9. 数据清洗验证

数据验证结果

所有列的缺失值已清零
重复行数为零
数据类型已匹配

使用说明

克隆仓库或下载 .ipynb 文件
安装依赖库：pip install pandas numpy
从 Kaggle 下载数据集：https://www.kaggle.com/datasets/nehaprabhavalkar/av-healthcare-analytics-ii
将数据集与笔记本置于同一文件夹
在 Jupyter Notebook 中按顺序运行单元格

搜集汇总

数据集介绍

构建方式

该数据集源自Analytics Vidhya平台并通过Kaggle发布，原始数据包含318,438条记录与18个特征维度，旨在预测患者住院时长以优化医疗管理效率。数据构建过程中，通过系统性的质量评估识别出数据类型不匹配及少量缺失值等问题，随后采用均值、中位数及众数插补法分别处理数值型与分类型变量的缺失数据，并将错误数据类型的字段转换为整数格式，最终形成清洁可用的分析数据集。

使用方法

使用者可通过克隆代码仓库或下载Jupyter Notebook文件开始操作，需预先安装pandas与numpy库。数据集需从Kaggle平台下载并放置于与笔记本相同的目录中。在Jupyter环境中按顺序运行代码单元即可完成数据加载、质量检查与清洗流程，进而直接应用于住院时长预测或医疗效率分析等机器学习任务。

背景与挑战

背景概述

医院患者记录数据集诞生于医疗数据分析需求日益增长的背景下，旨在通过机器学习方法优化医疗资源管理效率。该数据集由Analytics Vidhya通过Kaggle平台于近年发布，核心研究问题聚焦于预测患者住院时长，以辅助医院进行床位调度、人员配置及成本控制。数据集涵盖31.8万条记录与18个特征，包括医院可用额外房间数、入院类型及疾病严重程度等关键变量，为医疗管理决策提供了数据驱动的洞察，对提升医疗服务系统运作效能具有显著影响力。

当前挑战

该数据集所解决的领域问题在于预测患者住院时长，挑战主要源于医疗数据的复杂性与不确定性。患者住院时长受多种因素交互影响，如疾病严重程度、入院类型及医院资源状况，模型需准确捕捉这些非线性关系以提供可靠预测。在构建过程中，数据清洗面临多重挑战：缺失值处理需区分随机缺失、完全随机缺失与非随机缺失等类型，并采用均值、中位数或众数等不同插补策略；数据类型不匹配问题要求将浮点数转换为整数以保持数据一致性；此外，特征如城市编码存在大量缺失，需结合现实背景进行合理推断，确保数据质量不影响后续分析有效性。

常用场景

解决学术问题

该数据集有效解决了医疗数据分析中常见的预测性建模问题，如住院时长预测的准确性和可解释性挑战。通过提供经过清洗的高质量数据，它支持研究者探索患者特征与医疗结果之间的复杂关系，促进了医疗资源优化、患者分流策略及临床决策支持系统的学术研究。其意义在于为医疗管理领域的实证分析提供了可靠数据基础，推动了数据驱动型医疗政策的发展。

实际应用

在实际医疗运营中，该数据集被广泛应用于医院管理系统的智能化升级。例如，医疗机构可基于预测模型提前预估患者住院需求，动态调整床位分配，减少患者等待时间并降低运营成本。此外，它还能辅助公共卫生部门分析地区医疗资源缺口，为政策制定提供数据依据，从而提升医疗服务的可及性和公平性。

数据集最近研究