five

JHU CSSE COVID-19 Dataset, NY Times COVID-19 Dataset, ECDC COVID-19 Dataset

收藏
github2023-04-17 更新2024-05-31 收录
下载链接:
https://github.com/cipriancraciun/covid19-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含与COVID-19相关的多种数据集,包括JHU CSSE、NY Times和ECDC的数据。原始数据文件位于./imports文件夹,衍生数据文件位于./exports文件夹。由于文件大小增加,数据文件不再托管在GitHub上,但所有原始、中间和衍生数据文件均可通过提供的链接访问。

This repository contains a variety of datasets related to COVID-19, including data from JHU CSSE, NY Times, and ECDC. The original data files are located in the ./imports folder, while the derived data files are in the ./exports folder. Due to the increasing size of the files, the data files are no longer hosted on GitHub, but all original, intermediate, and derived data files can be accessed via the provided links.
创建时间:
2020-03-23
原始信息汇总

COVID-19衍生数据集概述

数据集来源

JHU CSSE COVID-19数据集

  • 格式与内容:数据集包含dailyseries两个子集,分别涵盖全球国家和美国县/州的数据。数据格式包括JSON、TSV和SQL(SQLite)。
  • 增强内容:包括day_index_*absolute_pop100krelative_*delta_**_infected等指标。
  • 数据源:原始数据来自github.com/CSSEGISandData/COVID-19

NY Times COVID-19数据集

  • 格式与内容:数据集包含us-countiesus-states两个子集,仅涵盖美国县/州的数据。数据格式包括JSON、TSV和SQL(SQLite)。
  • 增强内容:与JHU数据集相同的增强处理。
  • 数据源:原始数据来自github.com/nytimes/covid-19-data

ECDC COVID-19数据集

  • 格式与内容:数据集包含europeworldwide两个子集,分别涵盖欧洲和全球的数据。数据格式包括JSON、TSV和SQL(SQLite)。
  • 增强内容:与JHU数据集相同的增强处理。
  • 数据源europe数据来自ecdc.europa.euworldwide数据来自ecdc.europa.eu

数据集使用

可视化

  • 全球:包括全球各国,根据确诊病例数量分为globalglobal-majorglobal-mediumglobal-minor
  • 欧洲:包括欧洲各国,根据确诊病例数量分为europeeurope-majoreurope-mediumeurope-minor
  • 美国:包括美国各州,根据确诊病例数量分为usus-majorus-mediumus-minor
  • 其他:包括worldcontinentssubcontinentsromania等。

数据集格式与访问

  • 存储位置:原始数据文件位于./imports,衍生数据文件位于./exports
  • 访问方式:由于文件大小限制,数据文件不再托管于GitHub,可通过提供的链接访问所有原始、中间和衍生数据文件。
  • 数据格式:提供多种格式,包括压缩和未压缩版本。

数据集增强与处理

  • 数据增强:对原始数据进行了格式化、标准化和信息增补,包括ISO代码、大陆、次大陆等信息。
  • 数据处理:对数据进行了重新处理和格式化,以提高数据的可操作性和可用性。

数据集使用许可

  • 图形:根据*Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0)*许可发布。
  • 数据集:使用时需同时引用原始数据集和衍生数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于JHU CSSE、NY Times和ECDC的原始COVID-19数据,经过重新处理和格式化,以增强数据的可用性和可操作性。原始数据文件存储在`./imports`文件夹中,而经过处理的衍生数据则存放在`./exports`文件夹中。由于文件体积较大,无法直接托管在GitHub上,但所有原始和衍生数据均可通过提供的链接下载。数据集经过重新格式化,采用每行一个数据点的形式,便于关系型数据库操作,并增加了诸如国家ISO代码、人口统计信息等额外字段。
特点
该数据集的特点在于其高度的结构化和丰富的信息维度。数据集不仅包含每日的COVID-19病例、死亡和康复数据,还通过衍生字段提供了诸如每10万人口的绝对病例数、相对病例比例、每日变化量等指标。此外,数据集还包含了国家的地理信息、人口统计数据以及大洲和次大洲级别的聚合数据。这些特征使得数据集在流行病学研究和政策制定中具有广泛的应用价值。
使用方法
该数据集的使用方法灵活多样,支持多种数据格式,包括JSON、TSV和SQLite数据库格式。用户可以通过提供的链接下载所需的数据文件,并根据研究需求进行进一步的分析。数据集的结构化设计使其能够轻松集成到现有的数据分析工具和流程中。此外,数据集还提供了基于衍生数据的可视化图表,用户可以直接使用这些图表或根据需求进行自定义分析。使用该数据集时,需引用原始数据来源及衍生数据集的GitHub页面。
背景与挑战
背景概述
JHU CSSE COVID-19 Dataset、NY Times COVID-19 Dataset 和 ECDC COVID-19 Dataset 是三个广泛使用的COVID-19相关数据集,分别由约翰霍普金斯大学系统科学与工程中心(JHU CSSE)、纽约时报(NY Times)和欧洲疾病预防控制中心(ECDC)发布。这些数据集自2020年初COVID-19疫情爆发以来,为全球研究人员、政策制定者和公众提供了关键的疫情数据支持。JHU CSSE数据集以其全球覆盖和实时更新著称,NY Times数据集则专注于美国各州和县的详细数据,而ECDC数据集则提供了欧洲地区的疫情统计。这些数据集通过提供确诊、死亡、康复等关键指标,帮助研究人员分析疫情传播趋势、评估防控措施效果,并为公共卫生决策提供数据支持。
当前挑战
尽管这些数据集在COVID-19研究中发挥了重要作用,但其构建和使用过程中仍面临诸多挑战。首先,数据来源的多样性和数据格式的不统一增加了数据整合的难度。例如,不同国家和地区的报告标准不一致,导致数据质量参差不齐。其次,数据更新频率高且数据量庞大,给数据存储和处理带来了技术挑战。此外,数据中的缺失值、异常值以及时间序列的不连续性也对分析结果的准确性提出了挑战。最后,数据隐私和伦理问题也不容忽视,尤其是在涉及个人健康数据时,如何在数据开放与隐私保护之间找到平衡是一个亟待解决的问题。
常用场景
经典使用场景
JHU CSSE COVID-19 Dataset、NY Times COVID-19 Dataset和ECDC COVID-19 Dataset作为全球范围内COVID-19疫情数据的重要来源,广泛应用于疫情趋势分析、传播模型构建以及政策效果评估等领域。这些数据集通过每日更新的确诊病例、死亡病例和康复病例等关键指标,为研究人员提供了全球、国家和地区的疫情动态。经典使用场景包括基于时间序列的疫情预测、区域间传播差异的比较分析,以及不同防控措施的效果评估。
实际应用
在实际应用中,这些数据集被广泛用于政府决策支持、公共卫生政策制定以及公众信息发布。例如,政府部门利用这些数据评估不同地区的疫情风险,制定针对性的防控措施;媒体和公众平台则通过可视化工具展示疫情动态,帮助公众了解疫情发展趋势。此外,这些数据集还被用于开发疫情追踪应用程序,提供实时的疫情信息更新。
衍生相关工作
基于这些数据集,衍生了许多经典的研究工作。例如,JHU CSSE COVID-19 Dataset被用于开发全球疫情地图,实时展示全球疫情分布;NY Times COVID-19 Dataset则被用于分析美国各州的疫情差异,揭示不同州防控措施的效果。此外,ECDC COVID-19 Dataset为欧洲各国的疫情研究提供了重要支持,帮助研究人员分析欧洲范围内的疫情传播模式。这些衍生工作不仅推动了疫情研究的深入,也为全球疫情防控提供了科学依据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务