five

Unified COVID-19 Dataset

收藏
github2024-05-09 更新2024-05-31 收录
下载链接:
https://github.com/CSSEGISandData/COVID-19_Unified-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个统一的COVID-19数据集,旨在将全球所有地理空间单元映射到唯一的标准化ID,标准化行政名称和代码,日期、数据类型和格式,统一变量名称、类型和类别,合并所有可信来源的数据,清理数据并修复混乱的条目,集成水文气象变量,政策数据,疫苗接种数据等,并优化数据以供机器学习应用。

This is a unified COVID-19 dataset designed to map all global geospatial units to unique standardized IDs, standardized administrative names and codes, dates, data types and formats, unify variable names, types and categories, merge data from all credible sources, clean data and rectify chaotic entries, integrate hydrometeorological variables, policy data, vaccination data, etc., and optimize the data for machine learning applications.
创建时间:
2020-06-10
原始信息汇总

数据集概述

数据集名称

Unified COVID-19 Dataset

数据集目的

  • 标准化全球地理空间单元的唯一标识。
  • 标准化行政名称和代码。
  • 标准化日期、数据类型和格式。
  • 统一变量名称、类型和类别。
  • 合并来自所有可信来源的数据。
  • 清理数据并修正混乱的条目。
  • 整合各级水文气象变量。
  • 整合人口加权水文气象变量。
  • 整合空气质量、合并症、WorldPop等静态数据。
  • 整合牛津政府响应追踪器中的政策数据。
  • 整合JHU中心城市影响中心的疫苗数据。
  • 整合每日感染估计(按感染日期统计的病例)。
  • 生成增强版本的数据集。
  • 生成流行病学估计。
  • 优化数据以供机器学习应用。
  • 提供多种数据格式,包括fst格式。
  • 提供代码以高效加载和组合/子集数据集。

数据结构

主要列信息

列名 类型 描述
ID 字符型 地理空间ID,唯一标识符
Date 日期型 数据记录日期
Cases 整型 累计病例数
Cases_New 整型 每日新增病例数
Type 字符型 报告病例类型
Age 字符型 报告病例的年龄组
Sex 字符型 报告病例的性别/性别
Source 字符型 数据来源

病例类型

类型 描述
Active 活跃病例
Confirmed 确认病例
Deaths 死亡病例
Home_Confinement 居家隔离/隔离
Hospitalized 住院病例
Hospitalized_Now 当前住院病例
Hospitalized_Sym 有症状住院病例
ICU ICU病例
ICU_Now 当前ICU病例
Infections 估计感染
Negative 阴性测试
Pending 待定测试
Positive 阳性测试
Positive_Dx 临床诊断阳性病例
Positive_Sc 调查和测试阳性病例
Recovered 康复病例
Tested 已测试病例
Tests 总测试数
Ventilator 机械通气病例
Ventilator_Now 当前机械通气病例

数据来源

来源 描述 级别
JHU Johns Hopkins University CSSE 全球 & 县/州级,美国
CTP The COVID Tracking Project 州级,美国
NYC New York City Department of Health and Mental Hygiene ZCTA/行政区,纽约市
NYT The New York Times 县/州级,美国
UVA University of Virginia School of Medicine 市/州级,南美洲
SES Monitoring COVID-19 Cases and Deaths in Brazil 市/州/国家级别,巴西
DPC Italian Civil Protection Department NUTS 0-3,意大利
RKI Robert Koch-Institut, Germany NUTS 0-3,德国
JRC Joint Research Centre 全球 & NUTS 0-3,欧洲
ERA5 The fifth generation of ECMWF reanalysis 所有级别
NLDAS North American Land Data Assimilation System 县/州级,美国
CIESIN C. for International Earth Science Information Net. 全球网格化人口
OxCGRT Oxford COVID-19 Government Response Tracker 国家级(全球) & 次国家级(美国,英国)
CRC Johns Hopkins Centers for Civic Impact 国家级(全球) & 次国家级(美国)
IHME Institute for Health Metrics and Evaluation 国家级(全球) & 次国家级(美国)

数据集支持

本工作由NASA健康与空气质量项目80NSSC18K0327支持,并获得国家卫生研究院(NIH)项目3U19AI135995-03S1的补充。

引用信息

Badr, H.S., Zaitchik, B.F., Kerr, G.H. et al. Unified real-time environmental-epidemiological data for multiscale modeling of the COVID-19 pandemic. Sci Data 10, 367 (2023). https://doi.org/10.1038/s41597-023-02276-y

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式体现了多源数据的整合与标准化处理。首先,通过将全球地理空间单位映射到一个唯一的标准化ID,确保了数据的地理一致性。其次,对行政名称和代码进行了标准化处理,涵盖了所有层级的行政单位。此外,数据集还统一了日期、数据类型和格式,确保了时间序列数据的连贯性。通过整合来自多个可信来源的数据,并对数据进行清洗和修正,确保了数据的质量和准确性。最后,数据集还集成了气象、空气质量、政策响应等多维度数据,为多尺度建模提供了全面的数据支持。
特点
该数据集的显著特点在于其高度的整合性和多维度的数据覆盖。首先,数据集通过统一的地理空间ID和标准化处理,确保了全球范围内数据的连贯性和可比性。其次,数据集不仅涵盖了COVID-19的病例数据,还整合了气象、空气质量、政策响应、疫苗接种等多维度数据,为深入分析疫情提供了丰富的数据基础。此外,数据集还提供了多种数据格式,包括高效的`fst`格式,便于快速加载和处理。
使用方法
该数据集的使用方法灵活多样,适用于多种分析和建模需求。用户可以通过提供的代码高效加载和子集化数据,便于进行定制化的分析。数据集支持多种数据格式,包括高效的`fst`格式,适合大规模数据处理。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手并进行数据整合与分析。对于机器学习应用,数据集经过优化,能够直接用于模型训练和预测。
背景与挑战
背景概述
Unified COVID-19 Dataset是由约翰斯·霍普金斯大学(JHU)系统科学与工程中心(CSSE)主导创建的,旨在整合全球范围内的COVID-19相关数据。该数据集的创建始于2023年,主要研究人员包括Hamada S. Badr等人,其核心研究问题是如何通过统一的标准化数据格式和结构,整合来自多个权威来源的COVID-19数据,以支持多尺度建模和分析。该数据集不仅涵盖了疫情的基本数据,如病例数、死亡数等,还整合了环境、政策、疫苗等多维度数据,极大地推动了全球范围内对COVID-19的深入研究与预测分析。
当前挑战
Unified COVID-19 Dataset在构建过程中面临多项挑战。首先,全球范围内数据来源的多样性和不一致性,导致数据的标准化和整合过程异常复杂。其次,不同国家和地区的行政区划和命名方式各异,如何在全球范围内建立统一的行政单位标识系统成为一大难题。此外,数据的质量控制和清洗也是一项艰巨的任务,尤其是在处理大量来自不同来源的原始数据时,如何确保数据的准确性和一致性尤为关键。最后,该数据集还需应对实时更新的挑战,以确保数据的时效性和应用价值。
常用场景
经典使用场景
Unified COVID-19 Dataset 的经典使用场景主要集中在多尺度建模和跨学科研究中。该数据集通过整合全球范围内的疫情数据、环境变量、政策响应和疫苗接种信息,为研究人员提供了统一的数据框架。其标准化处理使得不同来源的数据能够在同一平台上进行分析,尤其适用于流行病学模型、环境与健康关系的研究,以及政策效果的评估。
实际应用
在实际应用中,Unified COVID-19 Dataset 被广泛用于公共卫生决策支持、疫情预测模型构建和政策效果评估。例如,政府和卫生机构可以利用该数据集进行疫情趋势分析,优化资源分配和防控策略。同时,企业和研究机构也可以基于该数据集开发疫情相关的预测工具和风险评估系统,为全球范围内的疫情防控提供科学依据。
衍生相关工作
基于 Unified COVID-19 Dataset,许多经典工作得以展开,包括流行病学模型的优化、环境与健康关系的深入研究,以及政策效果的量化分析。例如,研究人员利用该数据集开发了多尺度疫情传播模型,评估了不同政策对疫情控制的影响。此外,该数据集还为全球范围内的疫情预测和风险评估提供了基础数据支持,推动了相关领域的技术进步和方法创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作