five

electricsheepafrica/africa-sdg-madagascar

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-sdg-madagascar
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自世界卫生组织数据门户的历史数据,涵盖马达加斯加的一级行政单位观测数据。数据集最后更新于2025年2月7日,地理范围为马达加斯加(MDG)。数据集包含13,351行和18列(6个数值型,12个类别型,0个日期时间型),分为训练集(10,680行)和测试集(2,670行)。变量包括地理信息(如地区代码、国家名称)、结果/测量(如数值、高低范围)、标识符/元数据(如维度代码、维度名称)等。数据集经过清洗和标准化处理,转换为Parquet格式,适用于机器学习任务。

This dataset contains historical data from WHOs data portal, covering first-level administrative unit observations from Madagascar. The data was last updated on HDX on 2025-02-07, with a geographic scope of Madagascar (MDG). The dataset consists of 13,351 rows and 18 columns (6 numeric, 12 categorical, 0 datetime), split into train (10,680 rows) and test (2,670 rows) sets. Variables include geographic information (e.g., region code, country name), outcome/measurement (e.g., value, low/high ranges), identifier/metadata (e.g., dimension code, dimension name), etc. The dataset has been cleaned and standardized, converted to Parquet format, and is suitable for machine learning tasks.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界银行集团的千年发展目标指标,经由人道主义数据交换平台(HDX)获取原始数据,并由Electric Sheep Africa团队精心加工为机器学习就绪的Parquet格式。构建过程中,原始数据通过CKAN API下载,随后统一转换为Parquet文件,并将列名规范为小写蛇形命名法。常见的缺失值标记如'N/A'、'null'、'none'等被统一替换为NaN。最终,数据集以固定的随机种子(42)按80/20比例划分为训练集和测试集,并保存为Snappy压缩的Parquet格式,以确保高效存储与加载。
特点
该数据集聚焦于马达加斯加的国家级发展指标,涵盖21条训练样本和5条测试样本,总计27条记录。数据包含8个字段,其中2个为数值型(年份和指标值),6个为类别型(如国家名称、指标名称等)。指标值范围跨度极大,从0.2至超过30亿,反映了从蚊帐使用率到重债穷国倡议状态等多元维度。地理范围限于马达加斯加,时间跨度覆盖2000年至2021年,为研究该国千年发展目标的长期趋势提供了宝贵的时间序列数据。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集,示例代码为`load_dataset('electricsheepafrica/africa-sdg-madagascar')`。加载后,可分别访问'train'和'test'分区,并将其转换为Pandas DataFrame进行进一步分析。数据集适用于分类与回归任务,用户可选取'indicator_name'作为目标变量,或直接对'value'列进行回归分析。得益于Parquet格式的列式存储,该数据集支持高效的过滤、聚合及特征工程操作,便于快速集成到机器学习流水线中。
背景与挑战
背景概述
该数据集由世界银行集团于2026年发布,经Electric Sheep Africa机构整理为机器学习就绪格式,聚焦马达加斯加的千年发展目标(MDG)指标。数据集包含27条国家级聚合记录,涵盖如重债穷国倡议状况、儿童蚊帐使用率等关键社会经济发展指标,时间跨度覆盖2000年至2021年。作为非洲人道主义数据基础设施的一部分,该数据集为研究马达加斯加在消除贫困、改善公共卫生等SDG目标上的进展提供了标准化、机器可读的基准数据,对推动非洲可持续发展目标的量化分析与政策评估具有重要参考价值。
当前挑战
该数据集面临的核心挑战在于其极小的样本规模(27行),这严重限制了基于统计学习或深度学习模型的泛化能力与鲁棒性验证。同时,数据来自世界银行原始统计,未经独立验证,可能存在报告偏差或定义不一致问题,例如不同年份对“蚊帐使用率”的统计口径差异。自动化清洗流程虽统一了缺失值标记,但无法纠正原始数据中的采样偏差或测量误差,且单一国家(马达加斯加)的数据难以支撑跨区域比较或因果推断,易导致模型过拟合与结论的片面性。
常用场景
经典使用场景
在可持续发展目标(SDGs)与千年发展目标(MDGs)的研究领域,非洲马达加斯加国家层面数据集africa-sdg-madagascar为学者提供了一个精炼且结构化的数据资源。该数据集收录了世界银行发布的涵盖卫生、经济发展等多维指标的国家级聚合数据,时间跨度从2000年至2021年。经典的使用场景聚焦于时间序列预测与分类任务,利用仅27行样本的小样本特性,研究者可探索极端数据稀缺条件下的机器学习模型性能,或构建轻量级基线模型以评估马达加斯加在特定发展指标上的趋势变化,如儿童蚊帐使用率或重债穷国倡议进展状态。
实际应用
在实际应用层面,该数据集为国际发展组织、非政府机构及政策制定者提供了快速生成数据简报与成本效益分析的基石。例如,人道主义援助机构可利用其指标字段(如重债穷国状态或蚊帐覆盖率)设计靶向干预方案;数据科学家则能基于该集合训练轻量级模型,嵌入至决策支持系统中,实时监测马达加斯加MDG指标的偏离警报。此外,作为公开可复用的资源,它降低了非洲本土数据基础设施的建设成本,支持区域研究者在缺乏庞大计算资源时开展可重复的因果推断与趋势外推。
衍生相关工作
围绕此数据集衍生出一系列富有影响力的工作。Electric Sheep Africa团队通过标准化的清洗与拆分流程,开创了面向非洲人道主义领域的ML-Ready数据整理范式,推动了HDX平台原始数据向可消费格式的转化。后续研究者可能借鉴其窄样本建模策略,提出针对欠发达国家时间序列的迁移学习或数据增强算法。同时,该集合作为World Bank与HDX整合的示范案例,启发了诸如africa-sdg系列数据集的构建,形成跨国家、跨指标的非洲发展监测矩阵,为联合国SDG进展评估的自动化报告生成奠定了数据融合基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作