SPARCS De-Identified

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/Keerthi1821/Hospital-inpatient-stays

下载链接

链接失效反馈

官方服务：

资源简介：

SPARCS数据集是一个广泛的数据报告框架，最初设计用于收集医院出院数据，现在包括纽约州所有医院出院、门诊手术、门诊访问和急诊部门接触的详细患者信息，包括特征、诊断、治疗、服务和成本。

The SPARCS dataset is a comprehensive data reporting framework initially designed to collect hospital discharge data. It now encompasses detailed patient information from all hospitals in New York State, including hospital discharges, outpatient surgeries, outpatient visits, and emergency department encounters. This information covers characteristics, diagnoses, treatments, services, and costs.

创建时间：

2024-05-09

原始信息汇总

数据集概述

数据来源

数据集名称：“Hospital Inpatient Discharges (SPARCS De-Identified)”
数据来源：纽约州卫生部
数据规模：超过2.35百万行，34列

变量列表

主要变量包括：医院服务区域、医院县、运营证书编号、永久设施ID、设施名称、年龄组、性别、种族、民族、住院时长、入院类型、患者处理、出院年份、CCS诊断代码、CCS诊断描述、CCS程序代码、CCS程序描述、APR-DRG代码、APR-DRG描述、APR-MDC代码、APR-MDC描述、APR严重程度代码、APR严重程度描述、APR死亡风险、APR医疗外科描述、支付类型1、支付类型2、支付类型3、出生体重、流产编辑指示器、急诊部门指示器、总费用、总成本。

目标变量

主要目标变量：Total_Cost
潜在目标变量：开放探索其他可能揭示有趣模式的目标变量，用于政策开发和评估、流行病学、医疗规划和资源分配以及护理质量评估。

数据局限性

数据为去标识化，符合HIPAA规定，不包含任何受保护的健康信息。
缺乏次要诊断、程序和收入代码。
地理信息仅包括有限区域。
存在缺失值和可能的偏差分析问题。

分析问题

是否能利用如住院时长和患者处理等输入特征预测住院费用？
影响政策开发和评估的潜在决定因素是什么？
是否能在不同设施中识别总费用与相应CCS诊断描述的直接模式？

方法论

数据预处理、探索性数据分析、特征工程、模型构建、模型选择、模型评估和数据可视化。

项目目标

预测治疗费用和探索政策、流行病学、健康规划/资源分配及护理质量评估的相关方面。
使用多种输入变量和监督机器学习算法，主要集中在回归技术上。

搜集汇总

数据集介绍

构建方式

SPARCS De-Identified数据集的构建基于纽约州卫生部门提供的‘医院住院病人出院数据’，该数据集通过收集和整理纽约州内所有医院出院、门诊手术、门诊就诊及急诊科接诊的详细患者信息，涵盖了患者特征、诊断、治疗、服务及费用等多个维度。数据集包含超过235万条记录和34个特征列，确保了数据的全面性和广泛性。为符合HIPAA法规，数据集进行了去识别化处理，移除了所有可能的个人身份信息，确保了数据的安全性和合规性。

使用方法

SPARCS De-Identified数据集适用于多种监督学习算法，特别是回归分析，以预测住院病人的总费用。用户可以通过数据预处理、探索性数据分析（EDA）、特征工程、模型构建、模型选择、模型评估和数据可视化等步骤，深入挖掘数据中的潜在模式和关联。此外，数据集还可用于政策制定、流行病学研究、医疗规划和资源分配等领域的分析，帮助决策者更好地理解和优化医疗系统的运作。

背景与挑战

背景概述

SPARCS De-Identified数据集是由纽约州卫生部提供的去识别化医院住院数据集，旨在通过分析患者的住院信息来预测治疗费用并支持政策制定、流行病学研究、卫生资源规划和护理质量评估。该数据集起源于1979年，由医疗行业与政府机构合作建立的州际规划与研究合作系统（SPARCS）所创建。SPARCS系统最初用于收集医院出院数据，现已扩展至涵盖所有住院、门诊手术、门诊就诊和急诊部门的数据，包括患者特征、诊断、治疗、服务和费用等详细信息。该数据集包含超过235万条记录和34个变量，主要目标变量为‘Total_Cost’，用于预测住院治疗的总费用。

当前挑战

SPARCS De-Identified数据集在构建和应用过程中面临多项挑战。首先，数据的去识别化处理虽然符合HIPAA法规，但可能导致部分关键信息的缺失，如次要诊断、手术和收入代码的缺失，影响分析的全面性。其次，数据中存在缺失值，特别是在支付类型相关的列中，这可能影响模型的准确性。此外，种族和民族数据的代表性不足可能导致分析结果的偏差。最后，数据集中包含多种编码系统，如CCS诊断代码，这对不熟悉这些编码系统的用户构成了理解和应用的障碍。

常用场景

经典使用场景

SPARCS De-Identified数据集的经典使用场景主要集中在医疗费用预测与政策评估领域。通过利用该数据集中的多维度变量，如患者年龄组、性别、种族、住院时长等，研究者能够构建回归模型，精准预测住院患者的总治疗费用。此外，该数据集还支持对医疗政策、流行病学、资源分配及护理质量评估的深入分析，为医疗系统的优化提供了科学依据。

解决学术问题

SPARCS De-Identified数据集解决了医疗领域中多个关键的学术研究问题。首先，它为医疗费用的预测提供了丰富的数据支持，帮助研究者理解影响治疗成本的关键因素。其次，该数据集通过其详细的诊断和治疗信息，促进了流行病学研究和政策制定的科学化，特别是在资源分配和护理质量评估方面。这些研究不仅提升了医疗系统的效率，还为公共卫生政策的制定提供了数据驱动的决策支持。

实际应用

在实际应用中，SPARCS De-Identified数据集被广泛用于医疗管理和政策制定。例如，医院管理者可以利用该数据集预测不同治疗方案的成本，从而优化资源配置。政府部门则可以通过分析该数据集，评估现有医疗政策的有效性，并制定更为精准的公共卫生策略。此外，保险公司也可利用该数据集进行风险评估，设计更为合理的保险产品，从而实现医疗资源的更高效利用。

数据集最近研究