five

electricsheepafrica/africa-who-total-density-per-million-females-aged-from-50-to-69-years

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-total-density-per-million-females-aged-from-50-to-69-years
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“50至69岁女性每百万人中乳腺X光检查设备的总密度”(DEVICES23)在非洲国家的国家级观察数据,时间跨度为2010年至2021年。数据来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator "Total density per million females aged from 50 to 69 years old: Mammography units" (`DEVICES23`) across African nations, spanning 2010–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区50至69岁女性每百万人中乳腺摄影设备的密度指标(代码DEVICES23)。数据涵盖2010年至2021年间34个非洲国家的年度观测值,共计77条记录。所有数值均取自API返回的浮点精度字段NumericValue,而非格式化显示字符串,并尽可能保留了置信区间上下界信息。原始数据经过重新打包,统一转换为Parquet格式,并纳入Electric Sheep Africa项目,成为一个可直接用于机器学习的数据集合。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,执行`load_dataset`命令后,返回的数据可直接转换为Pandas DataFrame进行分析。典型使用场景包括筛选出全国层面(dim1为SEX_BTSX或缺失)的数据以聚焦总体趋势,或通过ISO国家代码提取特定国家的时间序列。数据集同时支持回归与分类任务,数值字段value_numeric可作为主要回归目标,而置信区间字段则可用于不确定性建模。对于存在分层维度的其他指标,该数据集的设计亦支持按dim1/dim2字段进行过滤或聚合操作。
背景与挑战
背景概述
该数据集源于世界卫生组织全球健康观察站(WHO GHO),由Electric Sheep Africa团队于2021年后整理并发布,聚焦于2010至2021年间非洲34个国家中每百万50至69岁女性所拥有的乳腺X线摄影设备密度(指标代码DEVICES23)。乳腺X线摄影是乳腺癌早期筛查的核心手段,其设备密度直接反映区域医疗资源配置水平与妇女健康保障能力,对于评估非洲大陆公共卫生基础设施的薄弱环节具有重要意义。该数据集以统一架构的Parquet格式提供,包含点估计值与置信区间,便于机器学习建模与跨区域对比,为非洲健康不平等研究、资源分配优化及全球疾病监测提供了关键数据支撑。
当前挑战
该数据集所解决的领域问题在于,非洲乳腺癌筛查资源分布极不均衡,而现有数据多分散、格式不一,难以系统分析设备密度与健康结果间的关联。构建过程中的挑战包括:原始OData API数据需清理与标准化,仅保留浮点精度以避免显示字符串误差;部分国家多年份观测值缺失,仅77条有效记录导致样本稀疏;置信区间数据不完整,影响建模可靠性;还需甄别不同维度(如性别、城乡)的细分层次,确保分析时能准确聚焦于国家层面的全性别数据。这些挑战制约了模型泛化能力与因果推断的稳健性。
常用场景
经典使用场景
在公共卫生与流行病学研究中,该数据集被经典地用于分析非洲地区50至69岁女性人群的乳腺X线摄影设备可及性。通过汇总2010至2021年间34个非洲国家的年度观测数据,研究者能够评估不同国家在乳腺癌筛查基础设施方面的差异与趋势,尤其关注设备密度这一关键指标。这一应用场景为刻画非洲大陆乳腺影像诊断资源的时空分布格局提供了基础数据支撑。
解决学术问题
该数据集的核心学术贡献在于填补了非洲地区乳腺癌筛查设备可及性定量分析的空白。它使得研究者能够量化评估医疗资源分配不均的问题,并探索设备密度与乳腺癌发病率、死亡率之间的潜在关联。此外,借助置信区间数据,学者可进行更精确的统计推断,从而为政策制定者提供关于优化筛查资源配置、提升低收入国家早期诊断能力的循证依据。这一工作对于缩小全球健康不平等差距具有深远意义。
实际应用
在实际应用中,该数据集可为非洲各国的卫生规划部门提供决策参考。例如,通过识别设备密度极低的国家或地区,国际援助组织可以优先部署移动乳腺X线摄影车或培训当地技术人员。同时,该数据还能与人口健康调查或其他卫生系统指标(如女性健康服务覆盖率)进行交叉分析,辅助设计针对性的乳腺癌防控策略,从而在资源受限的环境中最大化筛查效益。
数据集最近研究
最新研究方向
在非洲公共卫生领域,该数据集聚焦于50至69岁女性乳腺X线摄影设备密度的时空分布,成为评估乳腺癌筛查基础设施可及性与区域健康不平等的前沿指标。结合WHO全球卫生观察站数据,研究者正利用这些跨年度、多国别的观测值,探索设备密度与乳腺癌早期诊断率、女性健康结局之间的关联。当前研究热点包括构建预测模型以识别设备配置严重不足的区域,并结合流行病学数据与政策干预指标,评估“全民健康覆盖”目标在撒哈拉以南非洲的推进成效。该数据集为全球健康数据科学提供了标准化、机器学习友好的范式,尤其适用于资源匮乏地区的健康服务规划与循证决策,其意义在于将碎片化的卫生统计转化为可操作的智能预警系统,推动本地化解决方案的生成。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务