COVID19-Dataset

github2022-01-10 更新2024-05-31 收录

下载链接：

https://github.com/newaaa41/COVID19-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

包含COVID-19报告的历史数据，直至1月24日。数据集包含了新报告的病例、死亡、康复，以及总报告的病例、死亡、康复和当前活跃病例。数据已从不同来源清洗和编译。

This dataset encompasses historical data on COVID-19 reports up until January 24th. It includes newly reported cases, deaths, recoveries, as well as the cumulative reported cases, deaths, recoveries, and currently active cases. The data has been cleaned and compiled from various sources.

创建时间：

2020-05-08

原始信息汇总

COVID19-Dataset 数据集概述

数据集内容

包含每日自动更新的新病例数据。
提供至2021年1月24日的COVID-19历史报告数据。
数据包括新报告的病例、死亡、康复，以及总报告的病例、死亡、康复和当前活跃病例。
数据已从不同来源清洗和编译。

数据存储格式

完整数据集存储于 covid19_dataset.csv 文件中。
按国家和地区分割的数据存储于 BY_REGION/ 目录下的不同CSV文件中。
按日期分割的数据存储于 BY_DAY/ 目录下的不同CSV文件中。
按测量类型（新报告病例、死亡、康复等）分割的数据存储于 BY_MEASUREMENT 目录下的不同CSV文件中。

数据使用方法

可通过克隆仓库获取数据： bash git clone https://github.com/newaaa41/COVID19-Dataset
或直接使用CSV文件的URL进行数据读取。

搜集汇总

数据集介绍

构建方式

COVID19-Dataset的构建基于多源数据的整合与清洗，涵盖了从疫情初期至2020年1月24日的历史报告数据。数据来源包括约翰斯·霍普金斯大学系统科学与工程中心、世界实时统计数据以及《纽约时报》等权威机构。数据集每日自动更新，新增病例、死亡和康复数据，确保数据的时效性与全面性。通过多源数据的交叉验证与清洗，确保了数据的准确性与一致性。

特点

该数据集以多维度的形式呈现了COVID-19疫情的动态变化，包括每日新增病例、死亡和康复数据，以及累计病例、死亡和康复数据。数据按国家、地区和日期进行分类存储，便于用户根据需求灵活提取。此外，数据集还提供了当前活跃病例的统计，为研究者提供了更全面的疫情分析视角。数据的结构化存储与多维度分类使其成为疫情研究的理想选择。

使用方法

用户可通过克隆GitHub仓库或直接访问CSV文件链接获取数据。数据集以四种形式存储：单一文件、按国家/地区分类、按日期分类以及按测量指标分类。用户可使用Python或R等编程语言直接读取数据文件，进行进一步的分析与可视化。例如，使用Pandas库读取CSV文件，或通过R语言加载数据，快速实现数据的处理与分析。

背景与挑战

背景概述

COVID19-Dataset数据集是在全球新冠疫情爆发期间创建的，旨在为研究人员和数据分析师提供一个全面、实时更新的疫情数据资源。该数据集由多个来源的数据整合而成，包括约翰斯·霍普金斯大学系统科学与工程中心（JHU CSSE）、世界卫生组织（WHO）以及纽约时报等权威机构。数据集涵盖了从疫情初期至2021年1月24日的历史数据，包含每日新增病例、死亡、康复人数以及累计病例等关键指标。该数据集的创建为全球范围内的疫情研究、政策制定和公共卫生决策提供了重要支持，尤其在流行病学建模、疫情趋势预测和资源分配优化等领域发挥了重要作用。

当前挑战

COVID19-Dataset在解决疫情数据分析和建模问题时面临多重挑战。首先，疫情数据的动态性和复杂性使得数据采集和整合变得尤为困难，尤其是不同国家和地区的报告标准不一致，导致数据质量参差不齐。其次，数据集的实时更新要求对数据源的持续监控和自动化处理，这对数据清洗和格式统一提出了较高要求。此外，疫情数据的多维度特性（如按地区、日期和指标分类）增加了数据存储和管理的复杂性。在构建过程中，研究人员还需应对数据源的不完整性和延迟问题，确保数据的准确性和时效性，以支持科学研究和决策分析。

常用场景

经典使用场景

COVID19-Dataset数据集广泛应用于全球范围内的疫情趋势分析。研究人员通过该数据集可以追踪每日新增病例、死亡人数和康复情况，进而评估不同国家和地区的疫情发展态势。该数据集的结构化数据格式使得跨区域、跨时间段的对比分析成为可能，为公共卫生政策的制定提供了数据支持。

衍生相关工作

基于COVID19-Dataset，许多经典研究工作得以展开。例如，研究人员开发了多种疫情预测模型，利用机器学习算法对疫情发展趋势进行预测。此外，该数据集还催生了多篇关于病毒传播动力学、疫苗分配策略和公共卫生干预效果的高水平学术论文，为全球疫情防控提供了重要的理论依据和实践指导。

数据集最近研究