five

electricsheepafrica/africa-world-bank-health-indicators-for-gambia-the

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-health-indicators-for-gambia-the
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - tabular-classification task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - health - indicators - gmb pretty_name: "Gambia, The - Health" dataset_info: splits: - name: train num_examples: 7716 - name: test num_examples: 1929 --- # Gambia, The - Health **Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-health-indicators-for-gambia-the) · **License:** `cc-by` · **Updated:** 2026-03-27 --- ## Abstract Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-gambia-the) on HDX. Improving health is central to the Millennium Development Goals, and the public sector is the main provider of health care in developing countries. To reduce inequities, many countries have emphasized primary health care, including immunization, sanitation, access to safe drinking water, and safe motherhood initiatives. Data here cover health systems, disease prevention, reproductive health, nutrition, and population dynamics. Data are from the United Nations Population Division, World Health Organization, United Nations Children's Fund, the Joint United Nations Programme on HIV/AIDS, and various other sources. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GMB**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Public health | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 9,646 | | **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) | | **Train split** | 7,716 rows | | **Test split** | 1,929 rows | | **Geographic scope** | GMB | | **Publisher** | World Bank Group | | **HDX last updated** | 2026-03-27 | --- ## Variables **Geographic** — `country_name` (Gambia, The), `country_iso3` (GMB), `year` (range 1960.0–2025.0). **Outcome / Measurement** — `value` (range -4186.0–2759988.0). **Identifier / Metadata** — `indicator_name` (Net migration, Population ages 30-34, female (% of female population), Population ages 15-64, male (% of male population)), `indicator_code` (SM.POP.NETM, SP.POP.3034.FE.5Y, SP.POP.1564.MA.ZS), `esa_source` (HDX), `esa_processed` (2026-04-11). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-world-bank-health-indicators-for-gambia-the") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `country_name` | object | 0.0% | Gambia, The | | `country_iso3` | object | 0.0% | GMB | | `year` | int64 | 0.0% | 1960.0 – 2025.0 (mean 1999.7284) | | `indicator_name` | object | 0.0% | Net migration, Population ages 30-34, female (% of female population), Population ages 15-64, male (% of male population) | | `indicator_code` | object | 0.0% | SM.POP.NETM, SP.POP.3034.FE.5Y, SP.POP.1564.MA.ZS | | `value` | float64 | 0.0% | -4186.0 – 2759988.0 (mean 34837.2639) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-11 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `year` | 1960.0 | 2025.0 | 1999.7284 | 2005.0 | | `value` | -4186.0 | 2759988.0 | 34837.2639 | 27.82 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from World Bank Group and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-health-indicators-for-gambia-the) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_world_bank_health_indicators_for_gambia_the, title = {Gambia, The - Health}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-health-indicators-for-gambia-the}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在公共卫生数据整合领域,该数据集源于世界银行集团发布的权威统计资料,经由人道主义数据交换平台汇集而成。原始数据涵盖了冈比亚自1960年至2025年间的国家层面健康指标,包括卫生系统、疾病预防、生殖健康及人口动态等多维度信息。数据构建过程中,通过CKAN应用程序接口获取原始资料,并进行了系统的标准化处理:列名统一转换为蛇形命名法,缺失值标记被规范为NaN值,最终以Snappy压缩的Parquet格式存储,并按照80:20的比例采用固定随机种子划分为训练集与测试集,确保了数据结构的机器学习友好性。
特点
该数据集呈现出典型的结构化面板数据特征,共包含9646条观测记录,涵盖8个核心变量。其时空维度完整,既包含国家名称与ISO3代码等地理标识,也囊括跨越六十五个年度的连续时间序列。指标体系设计精良,通过标准化编码区分不同健康维度,如人口结构、迁移趋势等,数值型变量跨度从负值到百万量级,体现了公共卫生指标的复杂多样性。数据质量方面,所有字段均无缺失值,且经过严格的格式统一处理,为跨国比较研究与纵向分析提供了可靠基础。
使用方法
在机器学习应用场景中,研究者可通过HuggingFace数据集库直接加载该资源,利用Python环境下的datasets模块实现无缝接入。加载后的数据可转换为Pandas数据框格式,便于进行探索性分析与特征工程。鉴于其表格分类任务导向,用户可基于年份、指标类型等维度构建预测模型,例如健康趋势预测或指标关联性分析。需要注意的是,建模时应充分考虑原始数据的世界银行方法论背景,建议结合官方技术文档进行结果验证,以确保分析结论的稳健性与政策相关性。
背景与挑战
背景概述
该数据集由世界银行集团发布,并由Electric Sheep Africa于2026年重新整理为机器学习可用格式,聚焦于冈比亚的公共卫生指标。其核心研究问题在于通过国家层面的聚合数据,系统监测和分析冈比亚在健康系统、疾病预防、生殖健康、营养及人口动态等多维度的长期趋势,旨在支持联合国千年发展目标中关于改善健康公平性的全球倡议。该数据集整合了联合国人口司、世界卫生组织等多源权威数据,为公共卫生政策制定和学术研究提供了关键的数据基础设施,尤其在发展中国家初级卫生保健评估领域具有显著影响力。
当前挑战
在公共卫生领域,该数据集致力于应对冈比亚健康指标的多维监测与预测挑战,包括如何从异质性指标中识别影响健康公平的关键因素,以及如何基于历史数据构建稳健的模型以支持政策干预。数据构建过程中,挑战主要源于原始数据源的固有局限:世界银行等机构收集的数据可能存在报告误差、定义不一致或采样偏差,而自动化清洗流程难以纠正这些深层问题;同时,将多年跨度的国家层级数据转换为标准化表格形式时,需统一缺失值标记并保持指标代码与名称的一致性,这对数据工程的严谨性提出了较高要求。
常用场景
经典使用场景
在公共卫生与人口健康研究领域,该数据集为分析冈比亚国家层面的健康指标动态提供了结构化基础。研究者通常利用其时间序列特征,构建回归或分类模型,以探索不同健康指标(如净迁移率、特定年龄组人口比例)与年份之间的关联,从而揭示长期趋势与周期性变化。机器学习实践者则将其视为典型的表格分类任务,运用决策树或梯度提升方法预测健康指标的类别归属,为后续政策模拟奠定数据驱动的分析框架。
实际应用
在实际应用层面,该数据集支持冈比亚公共卫生部门的资源规划与政策评估。政府部门可依据人口年龄结构数据优化医疗设施分布,或基于迁移指标调整区域卫生服务供给。国际组织如世界卫生组织则利用此类指标监测千年发展目标的进展,辅助制定针对性的健康促进战略。数据驱动的洞察有助于提升卫生系统的响应效率,尤其在资源有限的环境中实现更精准的干预。
衍生相关工作
围绕该数据集衍生的经典工作包括健康指标预测模型的构建与比较研究。学者们常以其为基础,开发时间序列预测算法来估计未来人口健康趋势,或应用特征选择技术识别关键影响因素。相关成果已延伸至健康不平等量化分析、卫生政策仿真模拟等领域,部分研究进一步整合地理或经济数据,形成多维健康评估框架,为区域卫生决策提供了更丰富的参考依据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务