five

electricsheepafrica/africa-who-historical-data-for-swz

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-swz
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织(WHO)数据门户的历史健康指标数据,重点关注非洲国家斯威士兰(Eswatini)的第一级行政单位观测数据。数据集包含10,364行和18列(6个数值型,12个类别型),涵盖1961年至2025年的数据。数据已被整理为适合机器学习的格式,包含8,291行的训练集和2,072行的测试集。变量包括地理信息(如地区代码、国家名称)、健康指标(如BMI均值、酒精消费量、青少年死亡率)以及元数据信息。数据集由Electric Sheep Africa从HDX平台获取并处理,统一了缺失值标记,移除了重复行和高缺失率列,并将数据分为训练集和测试集。

This dataset contains historical health indicators data from WHOs data portal, focusing on first-level administrative unit observations for Eswatini (Swaziland) in Africa. The dataset consists of 10,364 rows and 18 columns (6 numeric, 12 categorical), covering data from 1961 to 2025. It has been curated into ML-ready format with 8,291 training rows and 2,072 test rows. Variables include geographic information (e.g., region codes, country names), health indicators (e.g., mean BMI, alcohol consumption, adolescent mortality rates), and metadata. The dataset was obtained from HDX and processed by Electric Sheep Africa, which standardized missing value markers, removed duplicate rows and high-missing columns, and split the data into train/test sets.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)的官方数据门户,经由人道主义数据交换平台(HDX)获取,并由Electric Sheep Africa团队精心加工为机器学习就绪的Parquet格式。原始数据通过CKAN API批量下载,随后执行了系统化的数据清洗流程,包括将列名统一为小写蛇形命名法、将各类缺失值标记(如N/A、null等)标准化为NaN、剔除缺失率超过80%的列(如gho_url)、删除52条精确重复行,并依据解析成功率(>85%)将6列字符串转换为数值或日期类型。最终,数据集以固定随机种子(42)按80/20比例划分为训练集(8,291行)与测试集(2,072行),并存储为Snappy压缩的Parquet文件,确保了数据的高效存取与可复现性。
特点
本数据集聚焦于斯威士兰(Eswatini)的卫生领域历史指标,涵盖1961年至2025年间的一级行政区划观测数据,共计10,364行、18个变量。其结构兼具地理标识(如区域代码、国家名称)、健康指标描述(如平均BMI、酒精消费量、青少年死亡率)及测量值字段,并包含上界与下界估计值以反映不确定性。数据集的显著特点在于其多维度性:6个数值列(如numeric、low、high)支持回归任务,12个类别列(如gho_code、dimension_code)适配分类建模,而缺失值分布不均(部分列缺失率超40%)则对模型鲁棒性提出挑战。作为开源资源,它由权威机构WHO发布,经专业团队标准化处理,为人道主义与可持续发展领域的机器学习研究提供了坚实基础。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,仅需一行代码:load_dataset('electricsheepafrica/africa-who-historical-data-for-swz'),随即获得已预分割的训练与测试集,并可无缝转换为Pandas DataFrame以进行探索性分析或建模。数据集结构清晰,适用于分类与回归两大任务:例如,可基于gho_code、year_display等特征预测numeric值(回归),或利用region_code、dimension_name等类别属性推断value标签(分类)。建议在使用前关注缺失率较高的列(如dimension_type、low),并参考原始HDX页面中WHO的方法论说明以理解数据局限性。对于需要地理或时间维度分析的研究者,起止年份与区域代码字段为时空建模提供了直接支持。
背景与挑战
背景概述
在全球公共卫生领域,系统性、结构化的历史健康数据对于理解疾病负担演变、评估干预措施效果以及制定前瞻性政策至关重要。世界卫生组织(WHO)作为该领域的权威机构,其长期积累的监测数据为跨国比较和趋势分析提供了宝贵资源。在此背景下,由Electric Sheep Africa于2025年整理并发布的Eswatini(史瓦帝尼)历史健康指标数据集,聚焦于该国王室层级行政单位的观测数据,涵盖1961年至2025年间体重指数、酒精消费、青少年死亡率等核心健康指标。该数据集不仅填补了撒哈拉以南非洲在机器学习就绪格式上的结构化健康数据空白,更通过清洗与标准化流程,降低了研究机构利用WHO原始数据的技术门槛,为人道主义数据分析与开发性预测建模开辟了新路径。
当前挑战
该数据集的核心领域挑战在于,发展中国家的健康数据常面临报告不完整、定义不一致以及抽样偏差等问题,直接影响模型泛化能力与结论可靠性。具体而言,数据集中‘low’与‘high’字段缺失率高达40.5%,‘dimension_type’等关键维度信息的缺失亦超过20%,这将严重制约回归与分类任务的准确性。此外,自动化清洗流程虽统一了缺失值标记,却无法修正原始数据中潜在的系统性误报或不同年份之间的统计口径差异。构建过程中,团队还需克服从HDX平台通过CKAN API获取大跨度时间序列数据时的版本对齐难题,以及在去除重复行(52条)与缺失率过高列(gho_url)后平衡训练(8,291行)与测试集(2,072行)代表性的挑战,确保时空分布的完整性不被破坏。
常用场景
经典使用场景
在公共卫生与流行病学研究中,africa-who-historical-data-for-swz数据集作为史瓦帝尼王国(Eswatini)历史健康指标的标准化档案,被广泛用于构建时间序列预测模型,以追踪该国从1961年至2025年的关键健康趋势,例如平均体重指数(BMI)、人均酒精消费量及青少年死亡率等。其以第一级行政单位为观察单元的结构,支持区域层面的健康不平等分析,同时结合性别和财富维度变量,能够系统剖析健康结果的社会决定因素。研究者通常利用该数据集训练回归或分类模型,以估算缺失值或预测未来健康指标的演变方向。
衍生相关工作
基于该数据集已衍生出一系列经典工作,例如通过引入时空图神经网络建模行政单位间的健康指标传播效应,以及使用贝叶斯分层模型整合多源WHO数据以填补历史记录空洞。Electric Sheep Africa团队将其作为非洲ML基础设施的一部分,推动了后续如“非洲健康指标指数量表”的构建,该量表融合了BMI、死亡率等变量生成复合健康暴露评分。此外,研究者还探索了利用该数据集微调大型语言模型(如LLaMA),以生成自然语言形式的健康趋势简报,自动摘录史瓦帝尼公共卫生报告的要点。
数据集最近研究
最新研究方向
该数据集聚焦于斯威士兰(Eswatini)的历史健康指标,涵盖体重指数、酒精消费、青少年死亡率等关键公共卫生数据,为非洲区域人道主义与健康研究提供了宝贵的结构化资源。当前前沿研究方向包括利用机器学习模型分析长期健康趋势,探索社会经济因素与疾病负担的关联,并结合时空数据预测健康风险。相关热点事件如全球健康不平等讨论中,该数据集支持对非洲大陆特定国家(如斯威士兰)的健康指标进行纵向比较,助力政策制定者识别优先干预领域。其意义在于填补了非洲区域细粒度健康数据的空白,促进数据驱动的公共卫生决策,推动可持续发展目标(尤其是健康福祉)的本地化实现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作