electricsheepafrica/africa-who-care-seeking-by-type-of-patient-and-source-of-care
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-care-seeking-by-type-of-patient-and-source-of-care
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2010年至2018年间,关于按患者类型和护理来源分类的护理寻求率(%)的WHO GHO指标数据。数据来源于WHO Global Health Observatory OData API,并重新打包为Parquet格式。数据集覆盖了27个非洲国家,共833行数据,包括数值估计值、置信区间边界等信息。此外,数据集还提供了详细的列描述和使用示例。
This dataset contains country-level observations for the WHO GHO indicator Care-seeking by type of patient and source of care (%) (`CARE_SOURCE`) across African nations, spanning 2010–2018. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,针对非洲区域(WHO AFRO)的27个国家,提取了2010至2018年间关于“按患者类型和护理来源寻求护理的比例”这一关键指标。原始数据经系统性清洗与结构化处理,以Parquet格式重新打包,确保格式统一、机器学习就绪。所有数值均取自精确浮点字段`NumericValue`,并附有置信区间边界(`value_low`、`value_high`),共计833条观测记录。数据集的构建兼顾了维度分层,如患者类型(住院、门诊、总计)与财富五分位数,使得每个国家、年份与维度的独特组合均形成独立行,便于多维分析。
特点
该数据集具有鲜明的区域聚焦性与结构化优势。其核心特点在于对非洲大陆的深度覆盖,囊括从安哥拉到塞内加尔等27个国家的卫生服务利用数据。指标本身提供了精细的护理来源分类,不仅区分住院与门诊患者,还进一步按财富五分位数分层,揭示了不同社会经济群体在就医行为上的差异。同时,数据集支持按性别、居住地类型等维度进行筛选,为研究者提供了丰富的分析视角。此外,置信区间的保留增强了统计推断的可靠性,而统一的时间跨度(2010–2018)则为纵向趋势分析奠定了坚实基础。
使用方法
该数据集的使用极为简便,尤其适用于Python生态中的机器学习与数据分析任务。用户可通过HuggingFace的`datasets`库一键加载,调用`load_dataset`函数即可获取完整的训练集,并利用`to_pandas()`方法转换为熟悉的DataFrame格式。针对特定分析需求,可通过过滤维度列(如`dim1`)来聚焦全国层面或特定亚群,例如筛选以`_BTSX`结尾的性别维度以获取男女总体数据。对于国家层面的时间序列分析,可直接按`country_iso3`列筛选并依`year`排序。数据集的标准化模式设计使其无缝适配分类、回归等多种监督学习任务。
背景与挑战
背景概述
在非洲大陆,医疗资源分布不均与疾病负担沉重长期制约着公共卫生体系的效能。世界卫生组织(WHO)全球卫生观察站(GHO)于2018年发布了“按患者类型和护理来源划分的求医行为(%)”指标,由Electric Sheep Africa团队重新打包为机器学习就绪的数据集。该数据集覆盖2010年至2018年间27个非洲国家的833条观测记录,核心研究问题在于量化不同社会经济群体(如财富五分位)和患者类型(住院、门诊及总体)的求医行为差异,为评估医疗可及性与卫生系统绩效提供了关键证据。该数据集在非洲健康数据分析领域具有基础性价值,推动了基于证据的区域卫生政策制定。
当前挑战
该数据集面临的领域挑战在于,非洲多国卫生信息系统薄弱,导致求医行为数据受限于调查抽样误差与回忆偏倚,难以准确反映真实就诊率。同时,数据分层维度(如性别、居住地)存在较多缺失值,限制了亚群分析的完整性。构建过程中,主要挑战包括:跨国家、跨年份的数据异构性(如不同国家定义“护理来源”的标准不一),以及从WHO API抓取时需处理高昂的更新延迟与零星的数据空白,最终经清洗与标准化后形成833行的一致架构,但仍需研究者谨慎处理置信区间与点估计的联合使用问题。
常用场景
经典使用场景
该数据集聚焦于非洲地区患者类型与护理来源之间的求医行为模式,涵盖2010至2018年间27个非洲国家的观测数据。其经典使用场景在于通过分类和回归任务,揭示不同社会经济群体(如财富五分位)和患者类型(住院、门诊、总体)在寻求医疗服务时的偏好差异。研究人员可借助该数据构建预测模型,评估贫困与富裕阶层在公共卫生系统、私立医疗机构或传统疗法之间的护理选择分布,从而量化医疗资源分配的不平等性。
解决学术问题
该数据集为全球健康与卫生经济学领域提供了标准化、可复现的实证基础,有效解决了非洲区域护理寻求行为的量化评估难题。其关键学术贡献在于:通过分层维度(如性别、城乡、财富水平),学者得以分解混杂因素,精准识别影响护理来源选择的决定性变量。这推动了对全民健康覆盖(UHC)进展的监测研究,尤其是针对弱势群体在疾病治疗中面临的财务障碍与地理可及性困境,为制定公平导向的卫生政策提供了统计支撑。
衍生相关工作
该数据集衍生出的相关工作涵盖纵向健康不平等度量、护理寻求行为的时空动态建模,以及多指标交叉分析。典型研究包括:结合财富五等分与城乡差异,构建混合效应模型以量化非洲国家内部护理覆盖率的鸿沟;利用置信区间信息进行贝叶斯推断,评估抽样不确定性对政策优先排序的影响。此外,该数据常被整合进WHO全球卫生观察站系列指标,用于跨国比较研究,或作为机器学习降水-卫生关联分析中的协变量,拓展了其跨学科应用边界。
以上内容由遇见数据集搜集并总结生成



