five

electricsheepafrica/africa-who-historical-data-for-gha

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-historical-data-for-gha
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织提供的加纳历史健康指标数据,涵盖加纳一级行政单位的观测数据。数据集包括多个健康相关指标,如平均BMI、复合覆盖指数、酒精消费量等。数据经过处理,转换为适合机器学习的Parquet格式,并分为训练集(14,898行)和测试集(3,724行)。数据集还包含地理、结果/测量、标识符/元数据等变量。

This dataset contains historical health indicators data for Ghana from the World Health Organization, covering first-level administrative unit observations. It includes various health-related metrics such as mean BMI, composite coverage index, and alcohol consumption. The data has been processed into a machine-learning-ready Parquet format and is split into training (14,898 rows) and test (3,724 rows) sets. The dataset also includes variables related to geography, outcome/measurement, and identifier/metadata.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)的历史数据门户,经由人道主义数据交换(HDX)平台通过CKAN API获取原始数据。随后,Electric Sheep Africa团队将其转化为机器学习就绪的Parquet格式。在清洗过程中,列名被统一转换为小写蛇形命名(snake_case),标准缺失值标记(如“N/A”、“null”等)被归一化为NaN。超过80%缺失值的列(如“gho_url”)被移除,并剔除了56行完全重复的数据。基于解析成功率超过85%的阈值,6列字符串被转换为数值或日期时间类型。最终,数据集以80/20比例划分训练集与测试集,采用固定随机种子(42)进行分割,并以Snappy压缩的Parquet格式存储。
特点
该数据集收录了加纳(GHA)第一级行政单元的历史健康指标,时间跨度从1961年至2025年,共计18,623行观测值。数据包含18列属性,其中6列数值型、12列类别型,涵盖地理信息(如地区代码)、测量结果(如“numeric”、“low”、“high”)以及元数据标识(如“gho_code”、“dimension_code”)。领域范围聚焦于人道主义与发展数据,观测单元为行政层级。值得注意的是,部分列如“numeric”、“low”、“high”存在超过20%的缺失率,在使用时需审慎处理。数据集由世界卫生组织发布,并经Electric Sheep Africa重新包装为机器学习优化格式。
使用方法
用户可通过HuggingFace的`datasets`库便捷加载该数据集,示例代码如下: python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-who-historical-data-for-gha") train = ds["train"].to_pandas() test = ds["test"].to_pandas() 加载后,训练集包含14,898行,测试集包含3,724行。适用于表格分类与回归任务,可直接用于机器学习建模。建议在模型训练前对缺失值较多的列(如“low”、“high”)进行插补或剔除。更多详情可参考原始HDX数据集页面以获取方法学说明。数据集采用`hdx-other`许可协议,引用时需标注世界卫生组织为原作者及Electric Sheep Africa的再包装贡献。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)于2025年2月发布,经Electric Sheep Africa团队重新整理为机器学习就绪格式。聚焦于加纳(GHA)第一级行政单位的健康指标历史数据,涵盖1961年至2025年间18,623条观测记录,包含平均BMI、酒精消费、儿童死亡率等关键变量。作为人道主义与发展数据领域的重要资源,该数据集填补了西非地区长期健康监测数据的空白,为流行病学研究、公共卫生政策评估及可持续发展目标监测提供了结构化、标准化的时间序列数据,尤其对非洲区域的健康趋势分析和预测建模具有奠基性意义。
当前挑战
该数据集面临的挑战包括:1)领域问题层面,加纳及西非地区长期面临健康数据稀疏、指标定义不一致以及数据采集偏差等难题,该数据通过整合WHO多源历史记录,首次提供了跨六十年的连续观测,为区域健康模型的构建奠定基础;2)构建过程中,团队需克服原始数据中40%以上字段的缺失率(如numeric、low、high列缺失超过23%)、56条重复记录以及非标准化缺失值标记的清洗问题,同时需将字符串字段转换为数值/时间格式,并确保80/20划分的随机种子一致性,最终形成可复用的训练与测试分区。
常用场景
经典使用场景
在公共卫生与流行病学研究的广阔领域中,加纳历史健康指标数据集(Ghana - Historical Health Indicators)作为世界卫生组织官方数据的结构化整合,为研究者提供了纵贯数十年、横跨加纳第一级行政单位的健康观测记录。该数据集最经典的用途在于开展时间序列分析与区域健康水平比较,例如追踪1961年至2025年间居民平均体重指数或酒精消费量的演变趋势,或是计算不同性别、财富分位下的综合覆盖指数。这些时序与截面数据共同构成了评估国家健康政策干预效果和疾病负担分布的核心素材,支撑着从描述性流行病学到健康决定因素建模的学术探索。
衍生相关工作
该数据集的出现催生了一系列衍生性研究工作,它们主要集中在三个方向:其一,基于指标构成的多维度特征,研究者探索了利用降维与聚类方法识别加纳健康状况的时空演变模式;其二,数据中丰富的维度和数值列(如numeric、low、high)为开发稳健的缺失值插补技术提供了真实基准,推动了不完整健康数据情境下统计建模方法的发展;其三,Electric Sheep Africa团队围绕此数据构建的标准化清洗流程与拆分策略,为后续更多非洲国家WHO历史数据的整理提供了可复用的技术范本,促进了整个区域健康数据基础设施的互联互通与知识共享。
数据集最近研究
最新研究方向
当前,该数据集聚焦于加纳第一级行政区划层面的历史健康指标,涵盖平均BMI、儿童死亡率、酒精消费等关键变量,已由Electric Sheep Africa转化为机器学习就绪的Parquet格式。在公共卫生与AI交叉领域,它正被用于构建预测模型,以动态追踪加纳卫生系统在1961至2025年间的演变趋势,尤其与联合国可持续发展目标中健康指标的监测紧密结合。随着加纳在非洲卫生领域扮演日益重要的角色,该数据集为评估过去六十年疾病负担转移、干预措施效能及健康不平等提供了时空维度的量化基础,其高质量时序数据有望推动基于证据的区域发展政策制定和人道主义响应优化。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务