five

epidemiological-datasets

收藏
github2026-03-20 更新2026-03-15 收录
下载链接:
https://github.com/fccoelho/epidemiological-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个精心策划的全球开放流行病学数据集集合,提供Python工具以便于访问和分析。

A carefully curated collection of globally open epidemiological datasets, providing Python tools to facilitate access and analysis.
创建时间:
2026-03-14
原始信息汇总

流行病学数据集概览

数据集基本信息

  • 数据集名称:Epidemiological Datasets
  • 存储库地址:https://github.com/fccoelho/epidemiological-datasets
  • 项目目标:集中开放获取的流行病学数据源链接,通过Python脚本标准化对异构数据集的访问,记录数据格式、更新频率和访问要求,支持流行病学和公共卫生领域的可重复研究。
  • 最后更新日期:2026-03-14
  • 许可证:MIT License

数据集覆盖范围

全球数据集

  • WHO Global Health Observatory:各国健康指标,年度更新,开放访问。
  • Our World in Data - Health:综合性健康数据集,每周更新,开放访问。
  • World Bank Health:健康、营养和人口统计数据,年度更新,开放访问。
  • Global Health Data Exchange (GHDx):健康数据集目录,更新频率各异,访问级别各异。
  • HDX (Humanitarian Data Exchange):危机背景下的健康数据,实时更新,开放访问。

北美洲数据集

  • CDC Wonder:美国健康统计数据,每周更新,开放访问。
  • CDC Open Data:CDC数据集门户,更新频率各异,开放访问。
  • HealthData.gov:美国卫生系统数据,每周更新,开放访问。
  • Statistics Canada - Health:加拿大健康数据,季度更新,开放访问。

南美洲数据集

  • SINAN - Brazil:巴西法定传染病数据,每周更新,开放访问*。
  • DATASUS:巴西卫生系统数据,每周更新,开放访问*。
  • SIAD - Brazil:巴西健康信息,每周更新,开放访问*。
  • PAHO/WHO Regional Data:泛美健康数据,每月更新,开放访问。
  • Chile DEIS:智利健康统计数据,每月更新,开放访问。
  • Colombia INS:哥伦比亚公共卫生数据,每周更新,开放访问。

欧洲数据集

  • ECDC Surveillance Atlas:传染病监测数据,每周更新,开放访问。
  • Eurostat Health:欧盟健康统计数据,年度更新,开放访问。
  • UK Health Security Agency:英国健康数据,每周更新,开放访问。
  • Robert Koch Institute:德国监测数据,每周更新,开放访问。

非洲数据集

  • WHO Afro Health Observatory:非洲区域健康数据,年度更新,开放访问。
  • DHIS2:卫生信息系统,实时更新,访问级别各异。
  • Africa CDC:非洲公共卫生数据,每周更新,开放访问。

亚洲数据集

  • China CDC Weekly:中国监测数据,每周更新,开放访问。
  • IDSP India:印度疾病监测数据,每周更新,开放访问*。
  • NIID Japan:日本传染病数据,每周更新,开放访问。
  • Korea CDC:韩国疾病控制数据,每周更新,开放访问。

大洋洲数据集

  • Australian Institute of Health and Welfare:澳大利亚健康数据,年度更新,开放访问。
  • NZ Ministry of Health:新西兰健康统计数据,年度更新,开放访问。

Python脚本与工具

已实现的访问脚本

  • datasus_pysus.py:使用PySUS库访问巴西公共卫生数据(DATASUS)。
  • who_ghoclient.py:使用ghoclient库访问WHO全球健康观察站数据。

计划中的访问脚本

  • cdc.py:访问CDC Wonder和开放数据。
  • ecdc.py:访问欧洲CDC数据。
  • owid.py:访问Our World in Data数据。
  • worldbank.py:访问世界银行健康指标。

核心依赖库

  • PySUS:用于访问巴西公共卫生数据的Python库。安装命令:pip install pysus。文档地址:https://pysus.readthedocs.io。存储库地址:https://github.com/AlertaDengue/PySUS。
  • ghoclient:用于访问WHO全球健康观察站API的Python客户端。安装命令:pip install ghoclient。PyPI地址:https://pypi.org/project/ghoclient/。存储库地址:https://github.com/fccoelho/ghoclient。

项目结构与内容

  • data/:缓存数据目录。
  • docs/:文档目录。
  • examples/:示例笔记本目录,包含巴西健康数据、WHO全球健康数据、世界银行健康指标、欧洲CDC监测和多源比较等示例。
  • scripts/accessors/:数据集特定的访问脚本目录。
  • src/epi_data/:主Python包目录。
  • tests/:测试套件目录。

使用示例

  1. 使用PySUS获取巴西健康数据:示例代码演示了如何下载登革热通知数据并按城市分析病例。
  2. 使用ghoclient获取WHO数据:示例代码演示了如何获取COVID-19疫苗接种数据并计算覆盖率。
  3. 多源分析:示例代码演示了如何结合使用SINAN和WHO数据进行巴西登革热和疟疾发病率的比较分析。

项目统计

  • 已记录的数据集:25+
  • 覆盖的国家:50+
  • 集成的Python库:2个(PySUS, ghoclient)

引用方式

bibtex @misc{fccoelho_epidemiological_datasets, author = {Coelho, Flávio Codeço}, title = {Epidemiological Datasets: A Global Collection}, year = {2026}, publisher = {GitHub}, journal = {GitHub Repository}, howpublished = {url{https://github.com/fccoelho/epidemiological-datasets}} }

搜集汇总
数据集介绍
main_image_url
构建方式
在流行病学研究领域,数据资源的整合与标准化是推动科学发现的关键。该数据集通过系统性地汇集全球范围内公开可获取的流行病学数据源构建而成,其构建过程体现了高度的组织性与可扩展性。核心方法包括对世界卫生组织、各国疾控中心及公共卫生机构等权威数据提供者的开放数据进行链接整理,并开发了配套的Python脚本工具,如PySUS和ghoclient,以实现对异构数据源的标准化访问。这种构建方式不仅创建了一个中心化的数据目录,还通过代码库的结构化设计,确保了数据获取的可重复性与研究过程的透明度。
使用方法
为便于研究人员高效利用该数据集,项目提供了清晰的使用路径。用户可通过克隆代码库并安装指定依赖(如pysus, ghoclient)来搭建本地分析环境。数据集的使用核心在于调用预置的Python访问脚本,例如,针对巴西健康数据,可使用PySUS库中的SINAN、SIM等模块按疾病、年份、地区等参数下载结构化数据;对于全球指标,则可借助ghoclient客户端从WHO接口查询特定指标的时间序列。项目附带的Jupyter示例笔记本进一步演示了从数据获取、初步处理到多源对比分析的完整工作流,为用户构建自定义分析模型奠定了坚实基础。
背景与挑战
背景概述
流行病学数据集作为公共卫生研究的关键基础设施,其系统化整合对于全球疾病监测与健康政策制定具有深远意义。由研究员Flávio Codeço Coelho于2026年主导创建的epidemiological-datasets项目,旨在构建一个全球范围内开放流行病学数据源的集中化知识库。该项目通过集成PySUS、ghoclient等专业工具,标准化了对世界卫生组织、各国疾控中心及区域卫生机构异构数据的访问流程,核心目标是促进传染病动力学、慢性病负担及卫生系统效能等领域的可重复性研究。该资源库不仅涵盖了六大洲五十余个国家的监测数据,更通过模块化脚本设计显著降低了数据获取的技术门槛,从而为跨地域比较研究与公共卫生决策支持提供了坚实的数据基础。
当前挑战
在流行病学数据整合领域,首要挑战在于如何克服全球卫生数据源的极端异质性,包括数据格式、更新频率、访问权限及元数据标准的巨大差异,这直接影响了跨数据集分析的可行性与准确性。构建过程中,项目面临多维度技术障碍:一是需开发通用化接口以适配各国卫生信息系统(如巴西DATASUS、美国CDC Wonder)的独特协议与认证机制;二是必须处理多语言、多时区及不一致编码体系带来的数据清洗难题;三是维护数据源的时效性要求持续监控数百个官方数据门户的变化。此外,部分区域(如非洲、亚洲部分地区)的数据可及性不足,以及敏感健康数据在开放共享与隐私保护间的平衡,均为该数据集持续扩展的核心制约因素。
常用场景
经典使用场景
在流行病学研究领域,该数据集集合为学者提供了全球范围内公开可及的流行病学数据资源的集中访问入口。其经典使用场景体现在支持传染病动力学模型的构建与验证,例如利用巴西的登革热通知数据或世界卫生组织的疟疾发病率指标,研究人员能够校准SEIR等经典模型参数,模拟疾病传播趋势,评估干预措施效果。通过集成的Python脚本工具,如PySUS和ghoclient,实现了异构数据源的标准化获取与预处理,极大便利了跨区域、长时序的对比分析,为理论模型提供了坚实的实证基础。
解决学术问题
该数据集有效解决了流行病学研究中数据分散、格式异构导致的重复劳动与可重复性挑战。通过系统化整合来自WHO、DATASUS、ECDC等权威机构的开放数据,并辅以标准化访问脚本,它使得研究人员能够便捷地获取多源、多尺度的健康指标,从而专注于核心科学问题的探索,如疾病时空传播规律解析、健康不平等性度量以及公共卫生政策效应评估。此举显著提升了研究效率,促进了数据驱动下的科学发现,并为全球健康领域的开放科学实践树立了典范。
实际应用
在实际应用层面,该数据集服务于公共卫生监测与应急响应决策支持。例如,卫生部门可借助其整合的实时或近实时数据源,如人道主义数据交换(HDX)或欧洲疾病预防控制中心(ECDC)的监测图谱,追踪疫情暴发动态,实现早期预警。同时,基于巴西医疗信息系统(SIH)的住院数据或CDC的开放数据,政策制定者能够评估医疗资源负荷,优化资源配置。这些应用直接赋能于从地方到全球的公共卫生行动,增强了社会对健康威胁的应对韧性。
数据集最近研究
最新研究方向
在流行病学领域,数据整合与标准化正成为推动研究创新的核心驱动力。该数据集通过集中全球开放流行病学数据源,并利用Python工具实现标准化访问,为前沿研究提供了关键基础设施。当前研究热点聚焦于多源异构数据的融合分析,例如结合巴西DATASUS与世卫组织全球观测数据,以探索传染病时空传播模式与健康不平等问题。这一方向不仅响应了全球公共卫生事件对实时、可互操作数据的迫切需求,也为构建预测模型与评估干预策略奠定了坚实基础,显著提升了研究的可重复性与决策支持能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作