five

COVID-19 US County-level Summaries

收藏
arXiv2020-09-11 更新2024-07-18 收录
下载链接:
https://github.com/JieYingWu/COVID-19_US_County-level_Summaries
下载链接
链接失效反馈
官方服务:
资源简介:
COVID-19 US County-level Summaries数据集由约翰斯·霍普金斯大学的计算机科学系和计算感应与机器人实验室共同创建,旨在为美国COVID-19的响应策略提供数据支持。该数据集包含3220个县级别区域的数据,涵盖了超过300个变量,如人口估计、民族、住房、教育、就业和收入、气候、交通评分和医疗系统相关指标。此外,数据集还包括了从SafeGraph和Google移动报告收集的户外活动信息,以及非药物干预措施的实施和撤销日期。数据集的应用领域主要集中在流行病学预测和研究,以及指导逐步放宽隔离措施和旅行限制的决策。

The COVID-19 US County-level Summaries dataset was jointly created by the Department of Computer Science and the Laboratory for Computational Sensing and Robotics at Johns Hopkins University, aiming to provide data support for COVID-19 response strategies in the United States. This dataset includes data from 3,220 county-level regions, covering over 300 variables such as population estimates, ethnicity, housing, education, employment and income, climate, traffic scores, and healthcare system-related metrics. Additionally, the dataset contains outdoor activity information collected from SafeGraph and Google Mobility Reports, as well as the implementation and revocation dates of non-pharmaceutical interventions (NPIs). The main application areas of this dataset focus on epidemiological prediction and research, as well as decision-making guidance for gradually relaxing quarantine measures and travel restrictions.
提供机构:
约翰斯·霍普金斯大学
创建时间:
2020-04-01
原始信息汇总

县域社会经济数据集用于流行病效应预测建模

概述

该数据集旨在为数据科学、机器学习及流行病学建模社区提供与社会经济因素相关的机器可读数据,这些因素可能影响流行病爆发的传播和后果,特别是新型冠状病毒(COVID-19)。数据集包含超过300个变量,涵盖人口估计、人口统计、种族、住房、教育、就业和收入、气候、交通评分及医疗系统相关指标。

数据结构

  • 数据文件夹:包含按县级别聚合的机器可读文件counties.csv,数据按FIPS代码组织,确保每个县的唯一标识。
  • 原始数据文件夹:包含用于创建数据文件夹的原始数据集。
  • 模型文件夹:正在建设中。
  • 脚本文件夹:包含将原始数据转换为机器可读格式的脚本。

数据添加指南

请在./raw_data目录下创建一个基于数据类型命名的新目录。

引用

如使用该数据集或代码,请引用相关论文: latex @article{killeenCountylevelDatasetInforming2020, title = {A {{County}}-Level {{Dataset}} for {{Informing}} the {{United States}} {{Response}} to {{COVID}}-19}, author = {Killeen, Benjamin D. and Wu, Jie Ying and Shah, Kinjal and Zapaishchykova, Anna and Nikutta, Philipp and Tamhane, Aniruddha and Chakraborty, Shreya and Wei, Jinchi and Gao, Tiger and Thies, Mareike and Unberath, Mathias}, year = {2020}, month = apr, archivePrefix = {arXiv}, eprint = {1909.11730}, eprinttype = {arxiv} }

致谢

该数据集是由约翰斯·霍普金斯大学的一组学生和教师共同努力的结果,特别感谢Jie Ying Wu、Benjamin Killeen等人的贡献。

搜集汇总
数据集介绍
main_image_url
构建方式
在公共卫生危机背景下,COVID-19 US County-level Summaries 数据集通过系统整合多源异构数据构建而成。研究团队从政府机构、学术数据库及新闻媒体中采集了美国县级层面的时间序列与静态变量,涵盖人口统计、社会经济、医疗资源及非药物干预措施等多维度信息。数据经过清洗与对齐,采用联邦信息处理标准代码作为唯一标识,确保机器可读性,并对部分缺失值进行了基于州平均值的插补处理。
特点
该数据集的核心特点在于其高度的时空粒度与丰富的变量覆盖。它不仅提供了约翰·霍普金斯大学CSSE仪表板的COVID-19病例与死亡时间序列,还纳入了超过300个静态变量,包括人口结构、教育水平、就业收入、气候特征及医疗容量等。尤为突出的是,数据集整合了SafeGraph和谷歌的流动性报告,以量化居家外活动模式,并详细记录了各县非药物干预政策的实施与解除日期,为分析疫情传播的区域异质性提供了全面基础。
使用方法
该数据集适用于流行病学建模、公共卫生政策评估及社会经济影响分析等领域。研究人员可通过其GitHub仓库获取结构化数据文件,利用提供的代码工具进行数据读取与预处理。典型应用包括构建机器学习模型以识别影响病毒传播的关键因素,评估不同干预措施的有效性,或探究区域特征与疫情动态之间的关联。使用时应考虑数据不确定性,如检测偏差与无症状感染的影响,并在分析中纳入适当的统计校正。
背景与挑战
背景概述
在2020年新冠疫情全球蔓延的背景下,约翰斯·霍普金斯大学的研究团队于同年创建了COVID-19 US County-level Summaries数据集,旨在为美国应对疫情提供数据支持。该数据集由Benjamin D. Killeen和Jie Ying Wu等学者主导,核心研究问题聚焦于通过整合县级层面的多源数据,揭示疫情传播的时空特征及其与区域社会经济、医疗资源等因素的关联,从而为制定精准的非药物干预策略提供依据。这一数据集不仅涵盖了感染与死亡时间序列,还纳入了人口统计、医疗容量、出行活动等300余个变量,显著推动了流行病学建模与公共卫生决策研究的进展,成为相关领域的重要基准资源。
当前挑战
该数据集致力于解决美国县级层面新冠疫情分析与预测的复杂问题,其核心挑战在于如何准确量化非药物干预措施的效果,并解释不同区域疫情传播差异的驱动因素。在构建过程中,研究团队面临多重困难:首先,数据来源分散于政府、学术与媒体渠道,需进行大规模对齐与标准化处理,以确保机器可读性;其次,县级干预措施的实施与撤销日期动态变化,需通过人工核查与多源验证来维护时效性与准确性;此外,医疗容量、出行活动等敏感数据的缺失与隐私限制,也增加了数据整合与质量控制的复杂度。
常用场景
经典使用场景
在流行病学建模与公共卫生政策评估领域,COVID-19 US County-level Summaries数据集被广泛应用于分析美国县级层面的疫情动态与非药物干预措施(NPIs)效果。研究者通过整合病例时间序列、人口统计学特征、医疗资源分布及出行活动数据,构建时空模型以揭示病毒传播的异质性,评估封锁令、口罩强制令等政策对感染率的影响,从而为精准防控提供数据支撑。
衍生相关工作
基于该数据集衍生的经典研究包括对非药物干预措施效果的因果推断分析、县域级疫情预测模型的开发,以及健康不平等性的空间计量研究。例如,多项工作利用其多源数据构建机器学习模型,预测病例增长与医疗资源需求;另有研究结合干预时间序列,评估政策松绑对经济复苏与疫情复燃的权衡关系,推动了跨学科公共卫生决策方法的发展。
数据集最近研究
最新研究方向
在公共卫生与流行病学领域,COVID-19 US County-level Summaries数据集正推动着精细化时空建模的前沿探索。该数据集整合了美国县级层面的病例动态、社会经济指标、医疗资源分布及非药物干预措施等多维度信息,为研究者解析疫情传播的异质性提供了丰富素材。当前研究热点聚焦于利用机器学习方法,深入挖掘区域特征与干预政策效果之间的复杂关联,旨在构建可解释的预测模型,以支持差异化防控策略的制定。例如,结合谷歌移动数据与SafeGraph的出行活动记录,学者们正评估人口流动模式对病毒再生数的影响,进而探讨经济重启与疫情反弹之间的平衡机制。这类研究不仅深化了对疫情动态的理解,也为未来突发公共卫生事件的应急响应提供了数据驱动的决策参考,具有显著的学术价值与现实意义。
相关研究论文
  • 1
    A County-level Dataset for Informing the United States' Response to COVID-19约翰斯·霍普金斯大学 · 2020年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作