five

中国COVID-19疫情时空数据集

收藏
arXiv2020-04-07 更新2024-06-21 收录
下载链接:
https://github.com/cheongsa/Coronavirus-COVID-19-statistics-in-China
下载链接
链接失效反馈
官方服务:
资源简介:
中国COVID-19疫情时空数据集是由南洋理工大学物理与数学科学学院创建的,旨在提供中国各城市/县级的COVID-19疫情每日统计数据。数据集包含每日新增感染、累计感染、每日新增康复、累计康复、每日新增死亡和累计死亡等六项关键数据,共计368条记录,覆盖2020年1月20日至2月29日。数据收集自中国官方网站,经过严格验证,错误率仅为0.04%。该数据集适用于区域级COVID-19传播动态研究,有助于政策制定者制定干预和缓解策略。

The Spatio-Temporal COVID-19 Epidemic Dataset of China was developed by the School of Physical and Mathematical Sciences, Nanyang Technological University, aiming to provide daily statistical data of COVID-19 epidemics at the city and county level across China. The dataset contains six key indicators: daily new infections, cumulative infections, daily new recoveries, cumulative recoveries, daily new deaths and cumulative deaths, with a total of 368 records covering the period from January 20, 2020 to February 29, 2020. The data was collected from official Chinese websites, rigorously validated with an error rate of only 0.04%. This dataset is applicable to regional-level COVID-19 transmission dynamics research, and helps policymakers formulate intervention and mitigation strategies.
提供机构:
南洋理工大学物理与数学科学学院
创建时间:
2020-03-26
搜集汇总
数据集介绍
main_image_url
构建方式
在流行病学研究中,精细化的时空数据对于理解疾病传播动态至关重要。该数据集通过系统收集中国各级卫生健康委员会官方发布的每日疫情报告构建而成。研究团队采用人工提取方式,从各省市官方网站下载HTML格式的每日报告,按照统一命名规范整理归档。针对报告时间跨度的复杂性,制定了明确的数据归属规则:当报告时段完全位于同一日历日时,数据归入该日;若跨越两个日历日,则根据时间覆盖比例分配至主要日期。最终提取了每个行政区划的六类核心指标,并通过交叉验证将整体错误率控制在0.04%以内。
使用方法
研究者可通过GitHub平台获取以CSV格式存储的六个独立数据文件,分别对应不同类型的疫情统计指标。利用Python的Pandas库可便捷地进行数据读取与预处理,通过分组聚合功能实现省级层面的数据汇总分析。Matplotlib等可视化工具能够生成时间序列图表,直观展示特定城市或省份的疫情发展趋势。对于空间分析需求,可结合QGIS等地理信息系统软件,将城市级数据与地理坐标关联,绘制疫情空间分布图,揭示传播的空间异质性。数据集采用CC0-1.0许可协议,支持全球研究人员的自由使用与二次开发。
背景与挑战
背景概述
新型冠状病毒肺炎(COVID-19)疫情于2020年初在东亚爆发,迅速演变为全球性大流行,对全球公共卫生体系构成严峻挑战。为深入理解疫情传播动力学并制定有效干预策略,亟需高分辨率时空数据的支撑。在此背景下,南洋理工大学物理与数学科学学院的刘文渊、颜宗文和张绍安于2020年共同创建了“中国COVID-19疫情时空数据集”。该数据集的核心研究问题是填补城市/县级层面高质量、公开疫情数据的空白,旨在通过提供中国各城市每日新增与累计感染、康复及死亡病例的六类关键指标,为流行病学建模、传播机制分析和政策效果评估提供精细化数据基础,从而助力全球科研人员更精准地洞察区域层面的疫情演变规律。
当前挑战
该数据集致力于解决疫情传播建模与分析中数据粒度不足的核心挑战。当时主流数据集(如约翰·霍普金斯大学数据)多集中于国家或省级层面,难以支撑对疫情局部扩散路径、跨城市传播网络及干预措施效果的精细研究。在构建过程中,研究团队面临多重技术与管理挑战:首要难题在于原始数据的高度异构性,中国各省市卫生部门每日发布的疫情报告格式迥异、发布平台分散且主要为中文文本,导致自动化数据提取异常困难,初期尝试的脚本化方法因格式不统一而失败,最终不得不依赖人工核对与交叉验证。其次,数据的时间对齐处理复杂,官方报告的时间窗口常跨越两个日历日,需制定严谨规则进行病例归属分配。此外,确保数据质量亦是一大挑战,部分省份原始数据的错误率较高,需通过作者间数据组互换与交叉验证将整体错误率降至约0.04%,以保障数据集的科学可靠性。
常用场景
经典使用场景
在传染病动力学研究领域,中国COVID-19疫情时空数据集为学者提供了城市/县级粒度的疫情演变轨迹。该数据集最经典的应用场景在于构建时空传播模型,通过每日新增感染、累计感染、康复与死亡病例等六类核心指标,研究人员能够精准刻画病毒在中国境内的扩散路径与速率。例如,学者可对比不同城市在疫情早、中、晚期的传播曲线,揭示区域间异质性传播模式,为理解封闭管理、交通管制等干预措施的效果提供实证基础。
解决学术问题
该数据集有效解决了传统疫情数据粒度粗糙导致的建模局限问题。以往基于省级或国家级的统计难以捕捉社区级传播动态,而本数据集提供的城市级时序数据使学者能够深入探究人口流动、医疗资源分布与传播速率间的关联机制。其意义在于为流行病学中的接触网络模型、时空预测算法提供了高精度验证基准,推动了传染病动力学从宏观描述向微观机制分析的范式转变,对突发公共卫生事件的应急建模具有里程碑价值。
实际应用
在公共卫生决策支持层面,该数据集成为评估防控策略效能的关键工具。政府部门可依据城市级疫情时空热力图,动态调整风险区域分级管理策略;疾控机构能通过对比不同城市康复率曲线,优化医疗资源调度方案。例如,利用数据集绘制的感染密度空间分布图,可直观显示交通枢纽对疫情扩散的影响,为跨境旅行限制政策提供数据支撑,实现了从学术研究到公共卫生实践的无缝衔接。
数据集最近研究
最新研究方向
在流行病学与公共卫生领域,中国COVID-19疫情时空数据集以其精细的城市/县级时空数据,为研究疾病传播机制与防控策略提供了关键支撑。当前前沿研究聚焦于利用该数据集构建高分辨率时空传播模型,结合人工智能与地理信息系统技术,深入分析疫情在不同区域间的扩散模式与驱动因素。热点方向包括评估非药物干预措施(如封控与交通限制)的时空效应,以及预测疫情在复杂社会网络中的演变趋势。这些研究不仅深化了对COVID-19传播动力学的理解,也为未来应对类似公共卫生危机提供了数据驱动的决策依据,具有重要的科学与社会意义。
相关研究论文
  • 1
    Spatial-Temporal Dataset of COVID-19 Outbreak in China南洋理工大学物理与数学科学学院 · 2020年
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务