five

africa-world-bank-combined-indicators-for-somalia

收藏
Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-world-bank-combined-indicators-for-somalia
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为“索马里 - 经济、社会、环境、健康、教育、发展和能源”,由世界银行集团发布,来源自HDX平台。数据集涵盖了索马里的多个发展指标,包括农业与农村发展、援助效果、经济与增长、教育、能源与矿业、环境、金融部门、健康、基础设施、社会保护与劳动、贫困、私营部门、公共部门、科学与技术、社会发展、城市发展、性别、千年发展目标、气候变化、外债和贸易等主题。数据集包含38,580行数据,分为训练集(30,864行)和测试集(7,716行)。每条数据代表国家层面的汇总信息,地理范围为索马里(SOM)。数据集包含8个字段,其中2个为数值型,6个为分类变量。主要字段包括国家名称(country_name)、国家ISO3代码(country_iso3)、年份(year)、指标名称(indicator_name)、指标代码(indicator_code)、数值(value)、数据来源(esa_source)和处理日期(esa_processed)。数据集经过清洗和预处理,包括去重、缺失值统一和数据类型转换等步骤。数据集适用于表格分类任务,可用于分析和建模索马里的发展指标。
创建时间:
2026-04-08
原始信息汇总

数据集概述:Somalia - Economic, Social, Environmental, Health, Education, Development and Energy

基本信息

  • 数据集名称:Somalia - Economic, Social, Environmental, Health, Education, Development and Energy
  • 发布者:World Bank Group
  • 数据来源:https://data.humdata.org/dataset/world-bank-combined-indicators-for-somalia
  • 许可证:cc-by-4.0
  • 语言:英语
  • 多语言性:单语
  • 数据规模:10K<n<100K
  • 任务类别:表格分类
  • 标签:africa, humanitarian, hdx, electric-sheep-africa, agriculture-livestock, aid-effectiveness, climate-weather, development, economics, education, energy, environment, som

数据内容与结构

  • 摘要:包含来自世界银行数据门户的数据,涵盖农业与农村发展、援助有效性、经济与增长、教育、能源与采矿、环境、金融部门、卫生、基础设施、社会保护与劳工、贫困、私营部门、公共部门、科学与技术、社会发展、城市发展、性别、千年发展目标、气候变化、外债、贸易等主题。每一行代表国家层面的汇总数据。
  • 地理范围:SOM(索马里)
  • 最后更新日期(HDX):2025-08-28
  • ML就绪格式处理方:Electric Sheep Africa (https://huggingface.co/electricsheepafrica)

数据集特征

  • 领域:公共卫生
  • 观察单位:国家层面汇总
  • 总行数:38,580
  • 列数:8(2个数值型,6个分类型,0个日期时间型)
  • 训练集分割:30,864行
  • 测试集分割:7,716行

变量说明

  • 地理变量
    • country_name:索马里
    • country_iso3:SOM
    • year:范围1960.0–2024.0
  • 结果/测量变量
    • value:范围-184947432305300.0–525412601720700.0
  • 标识符/元数据变量
    • indicator_name:指标名称(示例:Domestic credit to private sector (% of GDP))
    • indicator_code:指标代码(示例:SP.POP.6569.MA.5Y)
    • esa_source:HDX
    • esa_processed:2026-04-08

数据模式

列名 类型 空值百分比 范围/示例值
country_name object 0.0% Somalia, #country+name
country_iso3 object 0.0% SOM, #country+code
year float64 0.0% 1960.0 – 2024.0 (mean 1997.4031)
indicator_name object 0.0% Domestic credit to private sector (% of GDP), Population ages 65 and above, female, Age population, age 03, male
indicator_code object 0.0% SP.POP.6569.MA.5Y, SP.POP.3539.FE.5Y, SP.POP.1564.MA.ZS
value float64 0.0% -184947432305300.0 – 525412601720700.0 (mean 1513212414391.4263)
esa_source object 0.0% HDX
esa_processed object 0.0% 2026-04-08

数值摘要

列名 最小值 最大值 平均值 中位数
year 1960.0 2024.0 1997.4031 2000.0
value -184947432305300.0 525412601720700.0 1513212414391.4263 49.513

数据整理过程

  • 原始数据通过CKAN API从HDX下载并转换为Parquet格式。
  • 列名被转换为小写和标准蛇形命名法。
  • 常见的缺失值标记被统一为NaN
  • 移除了11,010个完全重复的行。
  • 基于解析成功率(>85%阈值),将2列从字符串转换为数值或日期时间类型。
  • 使用固定随机种子(42)将数据集按80/20比例分割为训练集和测试集,并保存为Snappy压缩的Parquet文件。

局限性

  • 数据源自世界银行集团,未经ESA独立验证。
  • 自动清理无法纠正原始收集中误报的值、定义不一致或抽样偏差。
  • 有关发布者自身的方法说明和注意事项,请参考原始HDX数据集页面:https://data.humdata.org/dataset/world-bank-combined-indicators-for-somalia。

引用格式

bibtex @dataset{hdx_africa_world_bank_combined_indicators_for_somalia, title = {Somalia - Economic, Social, Environmental, Health, Education, Development and Energy}, author = {World Bank Group}, year = {2025}, url = {https://data.humdata.org/dataset/world-bank-combined-indicators-for-somalia}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
在非洲发展研究领域,数据资源的整合与标准化对于深入理解区域社会经济动态至关重要。该数据集源自世界银行数据门户,通过人道主义数据交换平台汇集了索马里在农业、经济、教育、能源、环境、健康等二十余个关键发展领域的指标。原始数据经过自动化流程处理,包括从CKAN API下载、转换为Parquet格式、统一列名命名规范为蛇形命名法,并清理了缺失值标记与重复记录。为确保数据质量,超过85%解析成功率的列被转换为数值或日期类型,最终采用固定随机种子将数据按80:20比例划分为训练集与测试集,并以Snappy压缩格式存储,从而构建出一个适用于机器学习任务的表格型数据集。
特点
该数据集以国家层面的聚合数据为核心,涵盖了索马里自1960年至2024年长达六十余年的多维发展轨迹。其显著特点在于指标体系的全面性,不仅包含经济成长、教育健康等传统维度,亦延伸至气候变化、性别平等、千年发展目标等当代议题,形成了跨领域的综合观测框架。数据规模达到38,580行,包含8个特征列,其中数值型与分类型变量分布均衡,且无缺失值,确保了数据的完整性与一致性。地理范围严格限定于索马里,使得该数据集成为研究该国长期发展趋势与政策影响的宝贵资源。
使用方法
在机器学习与数据分析实践中,该数据集可直接通过Hugging Face的datasets库加载,为研究者提供了便捷的接入途径。使用load_dataset函数调用相应标识符后,数据将以字典形式返回训练集与测试集,并可进一步转换为Pandas DataFrame以进行探索性分析或建模。鉴于其表格型分类任务导向,用户可基于年份、指标代码等特征预测数值型指标值,或开展时间序列分析与跨指标关联研究。数据已预先分割,便于直接应用于模型训练与评估流程,同时建议参考原始世界银行方法论说明以理解指标背后的统计口径与潜在局限。
背景与挑战
背景概述
在全球化与可持续发展议程的推动下,对特定国家社会经济与环境状况的系统性量化分析成为国际发展研究的重要基石。索马里作为长期面临复杂挑战的非洲国家,其多维发展指标的整合与开放获取对于人道主义干预、政策制定及学术研究具有关键价值。世界银行集团作为权威国际金融机构,自上世纪中叶起持续构建全球发展数据库,并于2025年通过人道主义数据交换平台发布了索马里综合指标数据集,覆盖农业、经济、教育、健康、能源、环境等二十余个主题领域。该数据集由Electric Sheep Africa团队于2026年进行机器学习友好型重构,将原始数据转化为包含三万八千余条国家层面聚合记录的标准化表格,为探索索马里发展轨迹与跨领域关联提供了结构化数据基础。
当前挑战
该数据集致力于解决对脆弱国家进行跨领域发展态势综合评估的复杂性挑战,其核心在于整合高度异质且动态演变的指标体系,以支持从宏观经济趋势到社会健康不平等等多元研究问题的建模。在构建过程中,数据清洗面临原始数据中缺失值标记不统一、重复记录频现以及数值范围极端离散等难题,例如经济指标值域横跨负十八万亿至正五十二万亿的巨幅区间。此外,指标定义随时间推移可能存在的口径差异、世界银行原始收集方法潜在的抽样偏差,以及自动化流程无法校正的误报数值,均为数据质量与一致性带来了持续性挑战。
常用场景
经典使用场景
在非洲发展研究领域,该数据集为索马里国家层面的多维度指标分析提供了结构化数据基础。研究者通常利用这些涵盖经济、社会、环境、健康、教育等领域的时序指标,构建预测模型或进行趋势分析,以评估国家发展进程中的关键变量间的关系。经典应用场景包括基于历史数据的回归分析,预测未来经济增长或公共卫生状况,为政策制定提供量化依据。
衍生相关工作
围绕该数据集衍生的经典工作主要包括两类:一是机器学习驱动的预测研究,如利用时序特征构建索马里粮食安全预警模型;二是跨学科比较分析,例如将索马里指标与邻国数据结合,探讨冲突后重建路径的异同。这些工作不仅丰富了非洲研究的实证文献,也为类似脆弱国家的数据治理提供了方法论参考。
数据集最近研究
最新研究方向
在非洲发展经济学与数据科学交叉领域,索马里综合指标数据集正推动多维度发展评估模型的创新。研究者们利用其涵盖经济、社会、环境、健康及能源等广泛主题的结构化数据,探索机器学习在脆弱国家发展轨迹预测中的应用。当前前沿工作聚焦于构建跨领域指标关联网络,以揭示教育投入、气候变化适应与经济增长间的隐性耦合机制,为国际援助政策的精准设计与效果评估提供数据驱动的决策支持。这一方向呼应全球可持续发展目标(SDGs)的监测需求,尤其在应对人道主义危机与气候脆弱性叠加的挑战中,彰显出关键实证价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作