five

africa-disability-morocco

收藏
Hugging Face2026-04-21 更新2026-04-22 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-disability-morocco
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自世界卫生组织(WHO)数据门户的健康指标数据,涵盖空气污染、儿童死亡率、心理健康等多个类别。数据集以表格形式呈现,包含21,859行和19列(6个数值型,13个类别型),分为训练集(17,487行)和测试集(4,371行)。每行代表一级行政单位的观察数据。数据集适用于表格分类任务,地理范围为摩洛哥(MAR)。数据由Electric Sheep Africa整理为ML-ready的Parquet格式,并进行了标准化清洗和去重处理。数据集的主要变量包括地理信息(如地区代码、年份)、结果测量(如数值)、标识符/元数据(如指标代码、维度名称)等。需要注意的是,部分列(如low、high)缺失值较多,使用时需谨慎。数据集原始来源为HDX,由WHO发布,最后更新日期为2026年4月15日。

This dataset contains health indicator data from the WHO data portal, covering multiple categories such as air pollution, child mortality, and mental health. The data is presented in tabular format with 21,859 rows and 19 columns (6 numeric, 13 categorical), divided into a training set (17,487 rows) and a test set (4,371 rows). Each row represents observational data for a first-level administrative unit. The dataset is suitable for tabular classification tasks, with a geographic scope limited to Morocco (MAR). The data was processed by Electric Sheep Africa into ML-ready Parquet format, undergoing standardized cleaning and deduplication. Key variables include geographic information (e.g., region codes, year), outcome measurements (e.g., values), and identifiers/metadata (e.g., indicator codes, dimension names). Note that some columns (e.g., low, high) contain significant missing values requiring cautious use. The original data source is HDX, published by WHO, with last update on April 15, 2026.
创建时间:
2026-04-21
原始信息汇总

数据集概述:Morocco - Health Indicators

基本信息

  • 数据集名称:Morocco - Health Indicators
  • 数据集地址:https://huggingface.co/datasets/electricsheepafrica/africa-disability-morocco
  • 发布者:World Health Organization
  • 来源:HDX(https://data.humdata.org/dataset/who-data-for-mar)
  • 许可协议hdx-other
  • 最后更新:2026-04-15
  • 地理范围:MAR(摩洛哥)

数据集描述

该数据集包含来自世界卫生组织数据门户的健康指标数据,涵盖以下类别:

  • 空气污染、儿童死亡率、痴呆症诊断治疗与护理、环境与健康、食品安全、全球痴呆症观察站、全球健康估计(预期寿命及主要死因与残疾)、全球酒精与健康信息系统、全球患者安全观察站、艾滋病、卫生筹资、卫生系统、健康税、卫生人力、肝炎、免疫覆盖率和疫苗可预防疾病、疟疾、孕产妇与生殖健康、心理健康、被忽视的热带病、非传染性疾病、营养、口腔健康、优先健康技术、物质使用障碍资源、道路安全、性传播感染、物质使用障碍服务覆盖、烟草控制、结核病、全民健康覆盖(UHC,SDG目标3.8)、疫苗可预防传染病、暴力预防、水、环境卫生和个人卫生、世界卫生统计。

每一行代表一级行政区划的观测值

数据集特征

特征
领域 食品安全与营养
观测单位 一级行政区划观测值
总行数 21,859
列数 19(6个数值型,13个分类型,0个日期时间型)
训练集 17,487行
测试集 4,371行
地理范围 MAR
发布者 世界卫生组织
HDX最后更新 2026-04-15

变量说明

  • 地理相关变量gho_display(儿童死亡数、死因分布、每1000例活产死亡数)、year_display(范围1956.0–2030.0)、startyear(范围1956.0–2030.0)、endyear(范围1956.0–2030.0)、region_code(EMR)及其他4个。
  • 结果/测量变量value
  • 标识符/元数据变量gho_code(如MORT_100、MORT_300、MORT_200)、dimension_code(如SEX_BTSX、SEX_FMLE、SEX_MLE)、dimension_name(如Both sexes、Female、Male)、esa_sourceesa_processed
  • 其他变量gho_url(相关指标详情页链接)、numeric(范围0.0–13651494175.0)、low(范围0.0–354545.458)、high(范围0.0–704421.228)。

数据模式(Schema)

列名 类型 空值率 范围/示例值
gho_code object 0.0% MORT_100, MORT_300, MORT_200
gho_display object 0.0% Number of deaths in children aged <5 years, by cause 等
gho_url object 0.0% https://www.who.int/data/gho/data/indicators/indicator-details/GHO/number-of-deaths 等
year_display int64 0.0% 1956.0 – 2030.0
startyear int64 0.0% 1956.0 – 2030.0
endyear int64 0.0% 1956.0 – 2030.0
region_code object 0.0% EMR
region_display object 0.0% Eastern Mediterranean
country_code object 0.0% MAR
country_display object 0.0% Morocco
dimension_type object 10.7% SEX, RESIDENCEAREATYPE, AGEGROUP
dimension_code object 10.7% SEX_BTSX, SEX_FMLE, SEX_MLE
dimension_name object 10.8% Both sexes, Female, Male
numeric float64 10.9% 0.0 – 13651494175.0
value object 0.1%
low float64 35.4% 0.0 – 354545.458
high float64 35.4% 0.0 – 704421.228
esa_source object 0.0%
esa_processed object 0.0%

数值型变量统计摘要

列名 最小值 最大值 平均值 中位数
year_display 1956.0 2030.0 2008.0258 2011.0
startyear 1956.0 2030.0 2008.0216 2011.0
endyear 1956.0 2030.0 2008.0258 2011.0
numeric 0.0 13651494175.0 1540054.8706 13.253
low 0.0 354545.458 3101.3875 8.9945
high 0.0 704421.228 6691.6385 18.8427

数据预处理说明

原始数据通过CKAN API从HDX下载并转换为Parquet格式。列名统一为小写和下划线命名风格。常见的缺失值标记(如N/A、null、none、-、unknown、no data、#N/A)统一替换为NaN。移除了640个完全重复的行。使用固定随机种子(42)按80/20比例划分为训练集和测试集,并保存为Snappy压缩的Parquet文件。

局限性

  • 数据来源于世界卫生组织,未经ESA独立验证。
  • 自动清洗无法纠正原始数据中的误报、定义不一致或抽样偏差。
  • lowhigh的缺失率超过20%,在建模中应谨慎处理。
  • 请参考原始HDX数据集页面了解发布者自身的方法论说明和注意事项。

引用格式

bibtex @dataset{hdx_africa_disability_morocco, title = {Morocco - Health Indicators}, author = {World Health Organization}, year = {2026}, url = {https://data.humdata.org/dataset/who-data-for-mar}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)的官方数据门户,经由人道主义数据交换(HDX)平台获取。原始数据通过CKAN API下载后,由Electric Sheep Africa团队进行系统化清洗与重构:列名被统一转换为小写蛇形命名法,各类缺失值标记(如N/A、null等)被标准化为NaN,并剔除了640行完全重复的记录。最终,数据以Snappy压缩的Parquet格式存储,并按照80/20的比例随机划分为训练集(17,487条)和测试集(4,371条),确保了数据划分的可复现性。
特点
本数据集聚焦于摩洛哥(MAR)的卫生指标,涵盖空气污染、儿童死亡率、疟疾、孕产妇健康、精神卫生等数十个健康领域。每条记录代表一个一级行政区的观测值,时间跨度从1956年至2030年。数据集包含19个字段,其中6个为数值型,13个为类别型,提供了丰富的分析维度。值得注意的是,部分字段(如low和high)存在超过20%的缺失率,这提示用户在建模时需谨慎处理。地理范围限定于摩洛哥,区域代码为EMR(东地中海地区)。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集,仅需调用`load_dataset("electricsheepafrica/africa-disability-morocco")`即可获取训练与测试分片。加载后的数据可轻松转换为Pandas DataFrame进行后续探索性分析与建模。数据集适用于表格分类任务,特别适合用于构建与健康指标预测、区域健康风险评估相关的机器学习模型。建议在应用前,仔细阅读原始HDX页面中发布者的方法论说明,以充分理解数据的采集背景与潜在局限。
背景与挑战
背景概述
非洲大陆长期面临健康数据碎片化与标准化不足的困境,制约了区域健康政策的精准制定与机器学习模型的可靠训练。在此背景下,世界卫生组织(WHO)于2026年发布了摩洛哥健康指标数据集(africa-disability-morocco),由Electric Sheep Africa团队负责整理与机器学习友好化处理。该数据集整合了WHO全球健康观察站的多维健康指标,涵盖儿童死亡率、疟疾、孕产妇健康、精神卫生等三十余个领域,以摩洛哥一级行政区划为观测单元,共包含21,859条记录及19个变量。作为首个聚焦北非地区、面向机器学习的健康指标数据集,它为研究非洲健康不平等、疾病负担评估及政策干预效果提供了标准化、可复用的数据基础,对推动非洲公共健康领域的数据驱动研究具有里程碑意义。
当前挑战
该数据集所解决的领域问题在于,非洲健康研究长期受困于数据稀疏、格式混乱与跨域整合困难,限制了预测模型与决策支持系统的构建。具体挑战包括:1)数据来源多元(如WHO各专题数据库),需统一格式、清洗缺失值与去重,原始数据中‘low’与‘high’字段缺失率高达35.4%,给统计推断带来偏差风险;2)健康指标定义与测量方法随时间演变(数据跨1956至2030年),存在定义不一致与测量偏倚,自动化清洗无法完全校正;3)数据以英文为主,缺乏本地语言描述,限制了区域研究者的直接使用;4)作为公共健康数据,其隐私与伦理边界需谨慎处理,尤其涉及儿童死亡率等敏感指标时,数据共享与模型应用需遵循严格治理框架。
常用场景
经典使用场景
该数据集汇聚了世界卫生组织关于摩洛哥首级行政单元的多维度健康指标,涵盖儿童死亡率、疟疾、孕产妇健康、精神健康、免疫覆盖率及非传染性疾病等关键领域。其经典使用场景在于构建区域健康指标预测模型,例如基于时间序列分析儿童死亡率的变化趋势,或利用分类任务预测特定健康风险因素的空间分布。研究者常以此数据为基石,探索健康决定因素与环境、经济变量间的复杂关联,为公共卫生政策制定提供数据驱动的决策支持。
实际应用
在实际应用层面,该数据集是国际组织与非政府机构进行资源分配与健康项目评估的利器。例如,人道主义行动者可利用其识别摩洛哥各省份在孕产妇死亡率或疟疾防控上的短板,从而定向投放医疗资源。国家卫生部门亦可借助数据中的长期趋势分析,规划疫苗接种行动或应对非传染性疾病负担。此外,其机器学习就绪的格式大幅降低了数据分析门槛,使实时健康监测与预警系统得以落地,强化了区域健康治理的敏捷性。
衍生相关工作
基于该数据集,研究者已衍生出多项经典工作。一方面,学者开发了针对非洲健康指标的迁移学习框架,将摩洛哥的模型参数迁移至其他撒哈拉以南地区,提升低资源场景下的预测性能。另一方面,数据启发了可解释性健康预警系统的构建,通过特征重要性分析识别儿童死亡率的早期信号。同时,该数据集与地理空间数据融合后,催生了健康-环境耦合模型,用于模拟气候变迁对传染病传播的潜在影响,成为跨学科健康研究的典范案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作