2015 De-identified NY Inpatient Discharge

github2020-05-01 更新2024-05-31 收录

下载链接：

https://github.com/jm4766/NY-EHR-Inpatient-Discharge-Dataset-Analysis-Project

下载链接

链接失效反馈

官方服务：

资源简介：

本项目探索了2015年去标识化的纽约住院病人出院数据集，该数据集由州级规划和研究合作系统（SPARCS）收集。数据保存在一个包含235万行和37列的CSV文件中。每行代表一个出院的病人，每列代表与病人相关的特征，如年龄范围、种族、住院时长和入院类型。

This project explores the de-identified New York inpatient discharge dataset from 2015, collected by the Statewide Planning and Research Cooperative System (SPARCS). The data is stored in a CSV file containing 2.35 million rows and 37 columns. Each row represents a discharged patient, and each column represents features related to the patient, such as age range, ethnicity, length of stay, and type of admission.

创建时间：

2020-04-30

原始信息汇总

数据集概述

数据集名称

2015 De-identified NY Inpatient Discharge (SPARCS)

数据集描述

数据来源：Statewide Planning and Research Cooperative System (SPARCS)
数据格式：CSV文件
数据规模：2.35百万行，37列
数据内容：每行代表一名出院患者，每列代表与患者相关的特征，如年龄范围、种族、住院时长和入院类型。
隐私保护：患者姓名已被移除。

数据处理

数据清洗：
- 缩小调查范围：从纽约州医院缩小至Mount Sinai医院
- 删除不必要的患者特征
- 处理重复或无关数据
- 更改数据类型
- 删除多余符号

分析问题

诊断描述如何影响医院总费用，以及Mount Sinai医院中哪种诊断产生的总费用最高？
住院时长与总费用之间的关系，能否基于住院时长预测总费用？
疾病严重程度代码与住院时长及年龄之间的关系，能从这种关系中提取哪些信息？
针对特定诊断描述，使用Medicaid和Medicare产生的费用有何不同？

搜集汇总

数据集介绍

构建方式

2015 De-identified NY Inpatient Discharge数据集的构建，是基于纽约州州wide规划与研究合作系统（SPARCS）所收集的匿名化住院患者出院信息。该数据集涵盖2015年纽约州所有出院患者的详细记录，包含2,350,000条记录，37个属性字段，如患者年龄范围、种族、住院时长及入院类型等，以确保数据的全面性与实用性。

特点

该数据集的特点在于其规模宏大、信息详尽且经过匿名化处理，以确保患者隐私安全。数据清洗过程中，研究团队针对纽约市及特定医院——Mount Sinai Hospital的患者信息进行了筛选，删除了不必要或重复的数据特征，优化了数据结构，提升了数据集的分析价值。

使用方法

用户在使用该数据集时，可直接通过CSV格式进行导入和分析。在分析前，需对数据进行类型转换和额外符号的清除，以保证分析过程的准确性。数据集适用于开展疾病诊断与医疗费用相关性研究，亦可用于预测住院费用、疾病严重程度与患者年龄的关系等深入分析。

背景与挑战

背景概述

在数据科学广泛应用于社会各领域的当下，医疗数据作为信息宝库，对于提升医疗决策质量和病患健康管理具有无法估量的价值。2015 De-identified NY Inpatient Discharge数据集，是由纽约州立计划与研究合作系统（SPARCS）所收集，并在2015年由Mount Sinai医院用于数据分析项目。该数据集包含2.35百万出院病人的匿名信息，共计37个特征列，涵盖了病人的年龄、种族、住院时长、入院类型等，为保护隐私，病人姓名已脱敏处理。该数据集的构建，旨在利用数据科学方法对病患诊断信息进行深入分析，为医疗领域的信息化发展贡献了重要力量。

当前挑战

数据集在构建和应用过程中面临了诸多挑战。首先，数据集需解决的核心问题包括：分析诊断描述如何影响住院总费用，住院时长与费用的关系，疾病严重程度编码与住院时长及年龄的关系，以及不同诊断描述下Medicaid与Medicare产生的费用差异。其次，在构建过程中，数据清洗和验证是关键挑战，涉及剔除不必要病人特征，处理重复或无关数据，更改数据类型以及删除多余符号等步骤。这些挑战要求研究人员具备高超的数据处理技巧和严谨的分析能力，以确保数据集的质量和可用性。

常用场景

经典使用场景

在数据科学领域，对医疗数据进行深入分析是提升医疗质量与效率的关键途径。2015 De-identified NY Inpatient Discharge数据集，作为一份详尽的纽约州出院患者信息记录，被广泛用于疾病诊断、治疗费用与住院时间等相关性研究。该数据集的经典使用场景在于，研究者通过对其深度挖掘，可识别影响住院费用的关键因素，为医疗成本控制提供数据支撑。

实际应用

在实际应用中，此数据集被医疗机构和卫生政策制定者用于优化资源分配，降低治疗成本，提高服务质量。通过对患者住院费用的分析，可以合理调整医疗服务价格，预测医疗费用趋势，为患者提供更加精准的医疗服务。

衍生相关工作

基于该数据集，衍生出了一系列相关研究工作，包括疾病经济负担的评估、医疗服务的使用效率分析、患者住院行为的预测模型构建等。这些研究进一步扩展了数据集的应用范围，对医疗保健领域的决策科学化贡献显著。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集