2015 De-identified NY Inpatient Discharge
收藏github2020-05-01 更新2024-05-31 收录
下载链接:
https://github.com/jm4766/NY-EHR-Inpatient-Discharge-Dataset-Analysis-Project
下载链接
链接失效反馈官方服务:
资源简介:
本项目探索了2015年去标识化的纽约住院病人出院数据集,该数据集由州级规划和研究合作系统(SPARCS)收集。数据保存在一个包含235万行和37列的CSV文件中。每行代表一个出院的病人,每列代表与病人相关的特征,如年龄范围、种族、住院时长和入院类型。
This project explores the de-identified New York inpatient discharge dataset from 2015, collected by the Statewide Planning and Research Cooperative System (SPARCS). The data is stored in a CSV file containing 2.35 million rows and 37 columns. Each row represents a discharged patient, and each column represents features related to the patient, such as age range, ethnicity, length of stay, and type of admission.
创建时间:
2020-04-30
原始信息汇总
数据集概述
数据集名称
2015 De-identified NY Inpatient Discharge (SPARCS)
数据集描述
- 数据来源:Statewide Planning and Research Cooperative System (SPARCS)
- 数据格式:CSV文件
- 数据规模:2.35百万行,37列
- 数据内容:每行代表一名出院患者,每列代表与患者相关的特征,如年龄范围、种族、住院时长和入院类型。
- 隐私保护:患者姓名已被移除。
数据处理
- 数据清洗:
- 缩小调查范围:从纽约州医院缩小至Mount Sinai医院
- 删除不必要的患者特征
- 处理重复或无关数据
- 更改数据类型
- 删除多余符号
分析问题
- 诊断描述如何影响医院总费用,以及Mount Sinai医院中哪种诊断产生的总费用最高?
- 住院时长与总费用之间的关系,能否基于住院时长预测总费用?
- 疾病严重程度代码与住院时长及年龄之间的关系,能从这种关系中提取哪些信息?
- 针对特定诊断描述,使用Medicaid和Medicare产生的费用有何不同?
搜集汇总
数据集介绍

构建方式
2015 De-identified NY Inpatient Discharge数据集的构建,是基于纽约州州wide规划与研究合作系统(SPARCS)所收集的匿名化住院患者出院信息。该数据集涵盖2015年纽约州所有出院患者的详细记录,包含2,350,000条记录,37个属性字段,如患者年龄范围、种族、住院时长及入院类型等,以确保数据的全面性与实用性。
特点
该数据集的特点在于其规模宏大、信息详尽且经过匿名化处理,以确保患者隐私安全。数据清洗过程中,研究团队针对纽约市及特定医院——Mount Sinai Hospital的患者信息进行了筛选,删除了不必要或重复的数据特征,优化了数据结构,提升了数据集的分析价值。
使用方法
用户在使用该数据集时,可直接通过CSV格式进行导入和分析。在分析前,需对数据进行类型转换和额外符号的清除,以保证分析过程的准确性。数据集适用于开展疾病诊断与医疗费用相关性研究,亦可用于预测住院费用、疾病严重程度与患者年龄的关系等深入分析。
背景与挑战
背景概述
在数据科学广泛应用于社会各领域的当下,医疗数据作为信息宝库,对于提升医疗决策质量和病患健康管理具有无法估量的价值。2015 De-identified NY Inpatient Discharge数据集,是由纽约州立计划与研究合作系统(SPARCS)所收集,并在2015年由Mount Sinai医院用于数据分析项目。该数据集包含2.35百万出院病人的匿名信息,共计37个特征列,涵盖了病人的年龄、种族、住院时长、入院类型等,为保护隐私,病人姓名已脱敏处理。该数据集的构建,旨在利用数据科学方法对病患诊断信息进行深入分析,为医疗领域的信息化发展贡献了重要力量。
当前挑战
数据集在构建和应用过程中面临了诸多挑战。首先,数据集需解决的核心问题包括:分析诊断描述如何影响住院总费用,住院时长与费用的关系,疾病严重程度编码与住院时长及年龄的关系,以及不同诊断描述下Medicaid与Medicare产生的费用差异。其次,在构建过程中,数据清洗和验证是关键挑战,涉及剔除不必要病人特征,处理重复或无关数据,更改数据类型以及删除多余符号等步骤。这些挑战要求研究人员具备高超的数据处理技巧和严谨的分析能力,以确保数据集的质量和可用性。
常用场景
经典使用场景
在数据科学领域,对医疗数据进行深入分析是提升医疗质量与效率的关键途径。2015 De-identified NY Inpatient Discharge数据集,作为一份详尽的纽约州出院患者信息记录,被广泛用于疾病诊断、治疗费用与住院时间等相关性研究。该数据集的经典使用场景在于,研究者通过对其深度挖掘,可识别影响住院费用的关键因素,为医疗成本控制提供数据支撑。
实际应用
在实际应用中,此数据集被医疗机构和卫生政策制定者用于优化资源分配,降低治疗成本,提高服务质量。通过对患者住院费用的分析,可以合理调整医疗服务价格,预测医疗费用趋势,为患者提供更加精准的医疗服务。
衍生相关工作
基于该数据集,衍生出了一系列相关研究工作,包括疾病经济负担的评估、医疗服务的使用效率分析、患者住院行为的预测模型构建等。这些研究进一步扩展了数据集的应用范围,对医疗保健领域的决策科学化贡献显著。
以上内容由遇见数据集搜集并总结生成



