electricsheepafrica/africa-who-historical-data-for-bwa
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-bwa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自世界卫生组织数据门户的历史健康数据,每一行代表一级行政单位的观察结果。数据最后更新于2025年2月7日,地理范围为博茨瓦纳(BWA)。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式,包含6,542行和18列(6个数值型,12个类别型),分为5,233行的训练集和1,308行的测试集。数据集涵盖了多种健康指标,如平均BMI、酒精消费量、青少年死亡率等,并提供了地理、结果/测量、标识符/元数据等变量。数据经过清洗和标准化处理,但存在部分列缺失值较高的问题。
This dataset contains historical data from WHOs data portal. Each row represents first-level administrative unit observations. Data was last updated on HDX on 2025-02-07. Geographic scope: BWA. Curated into ML-ready Parquet format by Electric Sheep Africa. The dataset includes 6,542 rows and 18 columns (6 numeric, 12 categorical), split into 5,233-row train and 1,308-row test sets. It covers various health indicators such as mean BMI, alcohol consumption, adolescent mortality rate, etc., and provides variables like geographic, outcome/measurement, identifier/metadata, etc. The data has been cleaned and standardized but has some columns with high missing values.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织(WHO)的历史健康指标数据库,经由人道主义数据交换平台(HDX)以CKAN接口采集原始数据,并由Electric Sheep Africa团队进行系统性清洗与格式化。原始表格中的列名被统一转化为小写蛇形命名法,常见缺失值标记(如N/A、null等)被统一归并为NaN,同时剔除了缺失率超过80%的`gho_url`列以及40行完全重复记录。此外,基于解析成功率超过85%的阈值,将部分字符串列转换为数值或日期类型,最终以Snappy压缩的Parquet格式存储,并采用固定随机种子(42)按80/20比例划分为训练集和测试集。
特点
此数据集聚焦于博茨瓦纳(BWA)的国家级历史健康指标,涵盖1961年至2025年间的一级行政区划观测数据,总计6542行、18个变量,包含6个数值型与12个类别型字段。其特色在于融合了地理标识(如region_code、country_code)、时间维度(年份范围覆盖64年)以及多维健康测量指标(如平均BMI、酒精消费量、青少年死亡率等),同时提供了置信区间(low/high字段)以评估统计不确定性。值得注意的是,部分变量如dimension_code、dimension_name以及数值型字段存在超过20%的缺失,这为建模时的特征筛选与缺失值处理提出了审慎考量。
使用方法
用户可通过HuggingFace Datasets库直接加载该Parquet格式数据,调用`load_dataset("electricsheepafrica/africa-who-historical-data-for-bwa")`命令即可获取预划分的训练集与测试集。加载后的数据可直接转换为Pandas DataFrame进行探索性分析、缺失值填充或特征工程。该数据集适用于表格分类与回归任务,例如预测健康指标的时间序列趋势或分析人口学维度(如性别、年龄组)对卫生指标的影响。研究者需注意,原始数据未经ESA独立验证,且部分列缺失率较高,建议结合WHO官方方法论文档进行谨慎使用。
背景与挑战
背景概述
非洲地区长期面临卫生健康数据碎片化、不完整和难以获取的困境,这严重制约了基于证据的政策制定和机器学习模型的开发。2025年,世界卫生组织(WHO)与博茨瓦纳人道主义数据交换平台(HDX)合作发布了africa-who-historical-data-for-bwa数据集,由Electric Sheep Africa整理为机器学习就绪的Parquet格式。该数据集聚焦博茨瓦纳,收录了1961年至2025年间第一级行政单位的6542条历史健康指标记录,涵盖平均BMI、人均酒精消费、青少年死亡率等关键变量。其核心研究问题在于为非洲公共卫生领域提供标准化、可复用的时序型表格数据,以支持分类和回归任务。该数据集填补了非洲次国家级健康数据在ML社区中的空白,为人道主义分析、流行病学建模和政策评估奠定了数据基础。
当前挑战
该数据集面临的挑战首先源自非洲公共卫生领域普遍存在的底层问题:原始健康指标的定义、测量方法和数据收集标准在不同时期和机构间不一致,导致数据可比性受限,且部分数值可能受采样偏差影响。在构建过程中,数据集遭遇了严重的缺失值问题——超过半数的行在`low`和`high`置信区间列上缺失,约1/3的维度标识列为空,这些缺失导致模型训练时需谨慎处理。此外,原始数据包含重复行、非标准化的缺失值标记和混杂的数据类型,虽经自动化清洗,但无法校正潜在的误报或定义性矛盾。地理范围仅限博茨瓦纳,且多数记录集中在2000年后,限制了其历史跨度的完整性和跨区域泛化能力。
常用场景
经典使用场景
该数据集汇聚了世界卫生组织(WHO)自1961年至2025年间关于博茨瓦纳(BWA)的丰富健康指标,涵盖人均酒精消费、平均BMI、青少年死亡率等多维主题。每行观测对应一级行政单元,可支撑时序分析与地理空间建模。经典使用场景包括利用`numeric`、`low`、`high`等数值列构建回归任务,预测健康指标的变化趋势;或以`value`列作为分类标签,判断某项健康事件的发生与否。数据集的标准化清洗与预切分(80/20训练-测试集)使其成为探索非洲区域健康动态、开展监督学习实验的理想入门资源。
解决学术问题
该数据集为学术界提供了解决非洲健康数据稀缺与碎片化问题的基石。它使得研究者能够回溯博茨瓦纳超过六十年的健康变迁,探讨公共卫生干预政策的长期效应,例如酒精管控对消费量的影响、青少年死亡率下降的驱动因素。通过结合区域代码与年份信息,学者可识别健康指标在非洲大陆的时空分布规律,弥补历史数据缺失造成的分析空白。其影响力在于推动了发展中国家健康指标量化研究的可重复性,为全球健康不平等议题的实证分析贡献了宝贵的第一手素材。
衍生相关工作
围绕该数据集衍生出的经典工作包括对健康指标缺失模式的系统性分析,例如利用`low`与`high`列构建置信区间估计,弥补`numeric`列的高比例缺失(27.3%)对模型造成的扰动。研究者还开发了基于类别列`dimension_code`(如性别细分)的分层建模方法,揭示男女在健康结局上的差异。此外,该数据集为博茨瓦纳本土的“数据驱动发展”项目提供了基准测试平台,催生了与HDX平台上其他非洲国家健康数据的跨域对比研究,推动了区域健康指标标准化与迁移学习的探索。
以上内容由遇见数据集搜集并总结生成



