NYC COVID-19 Dataset

github2022-11-25 更新2024-05-31 收录

下载链接：

https://github.com/ritawang917/Covid-19-Group-Project

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来自纽约市开放数据存储库，由卫生与心理卫生部门提供。数据集展示了通过样本采集日期定义的队列的成果（确诊病例、住院和死亡）。例如，如果纽约市居民检测出SARS-CoV-2阳性并随后住院，这两个事件将在同一采样日期下显示，指示阳性测试的样本采集日期，而不是住院日期。数据包括COVID-19检测样本、样本结果提取日期、检测人数、COVID-19阳性人数、住院的COVID-19患者人数以及因COVID-19在医院死亡的人数。

This dataset originates from the New York City Open Data repository, provided by the Department of Health and Mental Hygiene. It presents outcomes (confirmed cases, hospitalizations, and deaths) defined by the cohort based on the sample collection date. For instance, if a New York City resident tests positive for SARS-CoV-2 and is subsequently hospitalized, both events will be displayed under the same sampling date, indicating the sample collection date of the positive test, not the hospitalization date. The data includes COVID-19 test samples, the date of sample result extraction, the number of individuals tested, the number of COVID-19 positive cases, the number of COVID-19 patients hospitalized, and the number of deaths in hospitals due to COVID-19.

创建时间：

2022-08-23

原始信息汇总

数据集概述

数据集名称

Covid-19

数据集来源

数据集来自纽约市开放数据存储库，由纽约市健康与心理卫生局（DOHMH）提供。

数据内容

数据集包含以下信息：

新冠病毒检测样本
样本结果提取日期
检测人数
新冠病毒阳性人数
新冠病毒住院人数
因新冠病毒在医院去世的人数

数据结构

数据集包含两个数据集，分别涉及新冠病毒相关的死亡人数和确诊病例及住院患者人数。数据库包含三个表，其中specimen_batch_ID为唯一主键。

数据处理

使用Python和Pandas库进行数据清洗，通过SQL和PostgreSQL/pgAdmin4进行数据库存储。数据清洗包括删除不必要的列，将样本日期列数据类型转换为日期时间类型，并为每个样本日期分配一个样本批次ID。

机器学习应用

采用监督式机器学习模型，特别是回归模型，用于分析数据集中的特征关系。主要特征包括检测样本数、检测人数、阳性人数、住院人数和死亡人数。

分析结果

通过线性回归模型分析，发现新冠病毒阳性人数与医院死亡人数之间存在正相关关系。模型准确率为0.97。分析还显示，2020年底疫苗接种后，新冠病毒相关死亡人数有所下降，但数据收集在此后不久停止，限制了对疫苗效果的全面评估。

未来建议

在数据清洗和机器学习之前，深入分析数据集的含义。
使用包含最新数据的不同数据集。
尝试其他机器学习模型，并结合多个数据集以得出更多结论。

搜集汇总

数据集介绍

构建方式

NYC COVID-19数据集构建于纽约市开放数据仓库，数据由纽约市卫生与心理卫生局（DOHMH）提供。数据集通过收集每日样本采集日期（specimen_date）的队列结果，包括确诊病例、住院病例和死亡病例。数据清洗过程中，使用Python和Pandas库进行数据清理，去除了不必要的列，并将数据导入PostgreSQL数据库进行存储和进一步分析。数据集的构建旨在通过时间序列分析，揭示COVID-19疫情在纽约市的传播和影响。

特点

NYC COVID-19数据集的特点在于其详细记录了每日样本采集的COVID-19检测结果，包括检测人数、阳性病例数、住院病例数以及因COVID-19死亡的病例数。数据集的时间跨度为疫情爆发初期至2020年底，涵盖了疫苗接种前后的关键时期。数据集的丰富性使其能够支持多种分析，如疫情传播趋势、住院与死亡率的关联性，以及疫苗接种对疫情的影响等。

使用方法

NYC COVID-19数据集的使用方法包括数据清洗、数据库存储和机器学习分析。首先，使用Python和Pandas库对原始数据进行清洗和预处理，去除冗余信息并转换数据类型。随后，将清洗后的数据导入PostgreSQL数据库，通过SQL查询进行数据整合和分析。在机器学习部分，采用监督学习中的线性回归模型，分析COVID-19阳性病例数与住院死亡病例数之间的相关性。此外，数据集还可通过Tableau进行可视化展示，帮助用户更直观地理解疫情数据的变化趋势。

背景与挑战

背景概述

NYC COVID-19数据集由纽约市卫生与心理卫生局（DOHMH）提供，旨在记录和分析COVID-19疫情在纽约市的传播及其影响。该数据集涵盖了从2020年初疫情爆发以来的关键数据，包括每日检测样本数量、阳性病例数、住院人数以及因COVID-19导致的死亡人数。研究人员通过该数据集，试图揭示疫情传播的规律、疫苗接种的影响以及医疗资源的分配情况。该数据集不仅为公共卫生政策制定提供了重要依据，也为全球范围内的疫情研究提供了宝贵的数据支持。

当前挑战

NYC COVID-19数据集在应用过程中面临多重挑战。首先，数据的时间跨度有限，尤其是在疫苗接种后的数据记录不足，限制了对其长期效果的评估。其次，数据的多样性和复杂性使得特征选择与模型构建变得困难，尤其是在预测住院人数与死亡人数之间的相关性时，线性回归模型虽然表现良好，但无法适用于所有场景。此外，数据清洗过程中存在大量冗余信息，如何有效提取关键特征并避免过拟合是另一大挑战。最后，数据集的更新频率较低，无法及时反映疫情的最新动态，影响了研究的时效性和准确性。

常用场景

经典使用场景

NYC COVID-19数据集在流行病学研究中的经典使用场景包括分析COVID-19的传播趋势、住院率与死亡率之间的相关性，以及疫苗接种对疫情发展的影响。通过该数据集，研究人员能够追踪病毒在不同时间段的传播动态，评估公共卫生干预措施的效果，并为未来的疫情应对策略提供数据支持。

实际应用

在实际应用中，NYC COVID-19数据集被广泛用于公共卫生决策支持系统。政府部门和医疗机构利用该数据集进行疫情监测，评估医疗资源的分配需求，并制定疫苗接种策略。此外，该数据集还被用于开发预测模型，帮助预测未来的疫情发展趋势，从而提前部署防控措施。

衍生相关工作

基于NYC COVID-19数据集，衍生了许多经典研究工作，包括基于机器学习的疫情预测模型、疫苗接种效果评估研究以及公共卫生政策优化分析。例如，研究者利用线性回归模型分析了住院率与死亡率之间的相关性，并通过随机森林模型进一步验证了结果的可靠性。这些研究不仅深化了对COVID-19的理解，也为其他传染病的防控提供了参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集