COVID-19 API Dataset

github2024-08-19 更新2024-08-20 收录

下载链接：

https://github.com/Ren294/Covid-Data-Process

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来自COVID-19 API，提供全球COVID-19疫情的全面和定期更新报告。它涵盖了追踪疫情在不同地区（包括国家、州和省份）进展的广泛数据点，包括确诊、死亡、康复和活跃病例的数量，提供了疫情随时间演变的详细视角。

This dataset is sourced from the COVID-19 API, providing comprehensive and regularly updated reports on the global COVID-19 pandemic. It covers a wide range of data points for tracking the pandemic's progression across various regions including countries, states, and provinces, encompassing the counts of confirmed cases, deaths, recoveries, and active cases, and offering a detailed perspective on the pandemic's evolution over time.

创建时间：

2024-08-18

原始信息汇总

数据集概述

项目目标

Covid Data Process 项目旨在设计和实现一个专门针对 COVID-19 数据的综合实时数据处理管道。该项目旨在构建一个可扩展且高效的系统，能够实时地摄取、处理、存储和可视化 COVID-19 数据，使利益相关者能够基于最新信息做出明智的决策。

数据集选择

数据集来源于 COVID-19 API，提供关于 COVID-19 在全球传播和影响的全面且定期更新的报告。该数据集涵盖了追踪疫情在不同地区（包括国家、州和省份）进展的广泛数据点。这些数据点包括确诊案例数、死亡数、康复数和活跃案例数，提供了疫情随时间演变的详细视图。

数据格式示例

json { "data": [ 0: { "date": "2023-03-09", "confirmed": 209451, "deaths": 7896, "recovered": 0, "confirmed_diff": 0, "deaths_diff": 0, "recovered_diff": 0, "last_update": "2023-03-10 04:21:03", "active": 201555, "active_diff": 0, "fatality_rate": 0.0377, "region": { "iso": "AFG", "name": "Afghanistan", "province": "", "lat": "33.9391", "long": "67.7100", "cities": [] } }, ... ] }

系统架构

该 COVID-19 数据处理管道的系统架构设计旨在确保高效的数据摄取、处理、存储和可视化。它利用一系列开源技术和云服务，提供一个可扩展、健壮且灵活的框架，用于管理和分析大量实时数据。

数据摄取

数据源: COVID-19 数据通过 HTTP 请求从 API https://covid-api.com/api/ 获取。NiFi 处理数据摄取，执行初始清理和转换，为后续处理准备数据。
生产者/消费者: NiFi 充当生产者和消费者，将处理后的数据转发到 Apache Kafka 进行流式传输。

实时数据流

消息代理: Kafka 作为消息代理，在系统组件之间实时传输数据。
监控: Redpanda 监控 Kafka 的性能，确保系统稳定性。
流分析: Spark Streaming 实时处理数据，执行聚合和过滤等计算，数据通过 Kafka 流动。

数据存储

分布式存储: 数据存储在 Hadoop HDFS 中，提供可扩展且可靠的存储。
数据仓库: Apache Hive 在 HDFS 上启用对大型数据集的高效查询。

数据处理

作业调度: Airflow 编排和调度系统的作业流程，确保数据摄取、处理和存储任务的顺利执行。
批处理: Apache Spark 处理存储在 HDFS 中的数据，促进复杂的数据分析任务。

容器化

一致性与部署: Docker 容器确保开发、测试和生产环境的一致性，并在 AWS EC2 上部署以实现可扩展性。

数据可视化

交互式仪表板: Amazon QuickSight 可视化处理后的数据，允许创建交互式仪表板和报告。

技术使用

环境

Amazon EC2: 在可扩展且灵活的云环境中托管系统。
Docker: 容器化系统组件，确保一致性和易于部署。

框架和工具

Apache NiFi: 处理从 COVID-19 API 的数据摄取和初始处理。
Apache Kafka: 在系统组件之间启用实时数据流。
Redpanda: 监控 Kafka 以确保稳定的数据流和系统性能。
Apache Spark: 用于实时和批量数据处理。
Hadoop HDFS: 为大量处理后的数据提供分布式存储。
Apache Hive: 允许对存储在 HDFS 中的数据进行类似 SQL 的查询和分析。
Apache Airflow: 编排和调度整个系统的作业流程。

可视化

Amazon QuickSight: 提供商业智能和数据可视化功能，用于有洞察力的报告和分析。

搜集汇总

数据集介绍

构建方式

该数据集通过从COVID-19 API获取实时数据构建而成。数据源包括全球范围内的COVID-19相关信息，如确诊、死亡、康复和活跃病例等。数据通过Apache NiFi进行初步清洗和转换，随后通过Apache Kafka进行实时流处理，最终存储在Hadoop HDFS中。Apache Spark负责批处理和实时数据分析，确保数据的高效处理和存储。

特点

该数据集具有高度的实时性和全面性，涵盖了全球多个地区的COVID-19数据。其构建过程中采用了多种先进技术，如Apache NiFi、Kafka和Spark，确保数据的高效处理和存储。此外，数据集支持多种数据分析和可视化工具，如Amazon QuickSight，便于用户进行深入的数据分析和决策支持。

使用方法

用户可以通过AWS EC2实例部署该项目，并使用Docker进行环境配置。首先，用户需创建一个EC2实例并安装Docker和Docker Compose。随后，克隆项目仓库并运行相关脚本以初始化环境。通过配置Apache NiFi和Apache Airflow，用户可以启动数据流处理和任务调度。最后，利用Amazon QuickSight进行数据可视化，生成交互式报告和仪表盘。

背景与挑战

背景概述

COVID-19 API Dataset是由一个名为'Covid Data Process'的项目创建的，旨在设计和实现一个全面的实时数据处理管道，专门用于管理COVID-19数据的持续流入。该项目由主要研究人员或机构在近期开发，旨在构建一个可扩展且高效的系统，能够实时摄取、处理、存储和可视化COVID-19数据，使利益相关者能够基于最新信息做出明智的决策。该数据集从COVID-19 API获取，涵盖了全球范围内COVID-19的传播和影响，包括确诊案例、死亡、康复和活跃案例等关键指标，为疫情的时间演变提供了详细的视角。

当前挑战

COVID-19 API Dataset在构建和应用过程中面临多项挑战。首先，数据的高频率更新和大规模处理要求系统具备高度的可扩展性和实时处理能力。其次，数据源的多样性和复杂性增加了数据清洗和预处理的难度。此外，确保数据的一致性和准确性，特别是在多地区和多国家数据合并时，是一个重大挑战。最后，如何在保证数据隐私和安全的前提下，实现高效的数据共享和可视化，也是该数据集需要解决的关键问题。

常用场景

经典使用场景

COVID-19 API Dataset 的经典使用场景主要集中在实时数据处理和分析领域。该数据集通过从 COVID-19 API 获取的全球疫情数据，支持构建一个高效的实时数据处理管道。这一管道能够实时摄取、处理、存储和可视化 COVID-19 数据，为决策者提供最新的疫情信息。具体应用包括实时监控疫情发展趋势、分析不同地区的疫情严重程度以及预测未来的疫情变化。

衍生相关工作

COVID-19 API Dataset 的发布和应用催生了一系列相关研究和工作。例如，基于该数据集的疫情预测模型研究，通过机器学习和数据挖掘技术，提高了疫情预测的准确性。此外，数据可视化工具的开发，使得复杂的数据分析结果能够以直观的方式呈现给决策者和公众。这些衍生工作不仅丰富了疫情研究的工具箱，也为未来的公共卫生数据处理提供了新的思路和方法。

数据集最近研究