africa-world-bank-combined-indicators-for-mali
收藏Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-world-bank-combined-indicators-for-mali
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自世界银行数据门户的国家级汇总数据,涵盖农业与农村发展、援助效果、经济与增长、教育、能源与采矿、环境、金融、健康、基础设施、社会保护与劳动、贫困、私营部门、公共部门、科学与技术、社会发展、城市发展、性别、千年发展目标、气候变化、外债和贸易等多个主题。数据集为英文单语,采用CC-BY-4.0许可,适用于表格分类任务。总共有61,964行数据,分为训练集(49,571行)和测试集(12,392行)。数据集包含地理信息(国家名称、ISO3代码、年份)、结果/测量(数值)和标识符/元数据(指标名称、指标代码、数据来源、处理日期)等字段。数据经过清洗和标准化处理,去除了重复值,并分为训练和测试集。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式。
创建时间:
2026-04-13
原始信息汇总
数据集概述
基本描述
- 数据集名称:Mali - Economic, Social, Environmental, Health, Education, Development and Energy
- 发布者:World Bank Group
- 数据来源:HDX (https://data.humdata.org/dataset/world-bank-combined-indicators-for-mali)
- 数据整理者:Electric Sheep Africa (https://huggingface.co/electricsheepafrica)
- 许可证:cc-by-4.0
- 语言:英语
- 多语言性:单语
- 数据规模:10K<n<100K
- 任务类别:表格分类
- 标签:africa, humanitarian, hdx, electric-sheep-africa, agriculture-livestock, aid-effectiveness, climate-weather, development, economics, education, energy, environment, mli
数据集内容
- 摘要:包含来自世界银行数据门户的数据,涵盖多个主题,如农业与农村发展、援助有效性、经济与增长、教育、能源与采矿、环境、金融部门、健康、基础设施、社会保护与劳工、贫困、私营部门、公共部门、科学与技术、社会发展、城市发展、性别、千年发展目标、气候变化、外债和贸易。
- 地理范围:MLI(马里)
- 观察单位:国家级汇总数据
- 数据行数:总计 61,964 行
- 数据列数:8 列(2 个数值型,6 个类别型,0 个日期时间型)
- 数据划分:
- 训练集:49,571 行
- 测试集:12,392 行
- 数据更新:
- HDX 最后更新日期:2026-03-27
- ESA 处理日期:2026-04-13
变量说明
- 地理变量:
country_name:马里country_iso3:MLIyear:年份,范围 1960.0 至 2025.0
- 结果/测量变量:
value:数值,范围 -2343917557331.86 至 17021070202158.7
- 标识符/元数据变量:
indicator_name:指标名称(例如:Domestic credit to private sector (% of GDP))indicator_code:指标代码(例如:EN.URB.MCTY)esa_source:数据来源(HDX)esa_processed:处理日期(2026-04-13)
数据模式
| 列名 | 类型 | 空值百分比 | 范围/示例值 |
|---|---|---|---|
country_name |
object | 0.0% | Mali |
country_iso3 |
object | 0.0% | MLI |
year |
int64 | 0.0% | 1960.0 – 2025.0 (均值 1999.9273) |
indicator_name |
object | 0.0% | Domestic credit to private sector (% of GDP), Population in the largest city (% of urban population), Net migration |
indicator_code |
object | 0.0% | EN.URB.MCTY, EN.URB.MCTY.TL.ZS, SM.POP.NETM |
value |
float64 | 0.0% | -2343917557331.86 – 17021070202158.7 (均值 85200935062.8094) |
esa_source |
object | 0.0% | HDX |
esa_processed |
object | 0.0% | 2026-04-13 |
数值摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
year |
1960.0 | 2025.0 | 1999.9273 | 2003.0 |
value |
-2343917557331.86 | 17021070202158.7 | 85200935062.8094 | 42.0 |
数据整理过程
- 原始数据通过 CKAN API 从 HDX 下载并转换为 Parquet 格式。
- 列名被转换为小写并标准化为 snake_case。
- 常见的缺失值标记被统一为
NaN。 - 移除了 17,590 个完全重复的行。
- 使用固定的随机种子(42)将数据集按 80/20 的比例划分为训练集和测试集,并保存为 Snappy 压缩的 Parquet 文件。
使用方式
python from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-combined-indicators-for-mali") train = ds["train"].to_pandas() test = ds["test"].to_pandas()
print(train.shape) train.head()
局限性
- 数据来源于世界银行集团,未经 ESA 独立验证。
- 自动清洗无法纠正原始收集中误报的值、定义不一致或抽样偏差。
- 有关发布者自身的方法说明和注意事项,请参考原始 HDX 数据集页面 (https://data.humdata.org/dataset/world-bank-combined-indicators-for-mali)。
引用
bibtex @dataset{hdx_africa_world_bank_combined_indicators_for_mali, title = {Mali - Economic, Social, Environmental, Health, Education, Development and Energy}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-combined-indicators-for-mali}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
在非洲发展研究的背景下,该数据集由世界银行集团发布,并由Electric Sheep Africa团队进行系统化整理。原始数据来源于世界银行数据门户,覆盖农业、经济、教育、能源、环境、健康、社会发展等二十余个关键主题的指标。数据采集过程涉及从人道主义数据交换平台通过CKAN API下载,随后进行标准化清洗,包括统一列名格式为蛇形命名法、将各类缺失值标记统一转换为NaN,并移除了大量重复行。最终,数据集被划分为训练集与测试集,并以Snappy压缩的Parquet格式存储,确保了数据的结构规整与机器学习任务的直接可用性。
特点
该数据集聚焦于马里国家层面的宏观发展指标,其显著特点在于跨领域、长时序的综合性。数据涵盖自1960年至2025年的国家年度聚合值,包含八个结构化字段,其中既有地理与时间标识,也有具体的指标名称、代码及数值。指标范围广泛,从国内私人部门信贷占GDP比重到最大城市人口占比,乃至净迁移人口等,体现了社会经济与环境多维度的交织。数据规模达六万余行,经过严格去重与分区,确保了样本的独立性与代表性,为深入分析马里长期发展轨迹提供了高密度的信息基础。
使用方法
在应用层面,该数据集主要适用于表格分类等机器学习任务,尤其适合用于发展指标的趋势预测、模式识别或政策影响评估。用户可通过Hugging Face的datasets库直接加载,数据集已预分为训练集与测试集,便于快速进行模型训练与验证。加载后,数据可方便地转换为Pandas DataFrame进行探索性分析或特征工程。研究者需注意,数据源自世界银行的官方统计,虽经清洗但未独立验证,使用时应结合原始发布方的方法说明,审慎考虑指标定义一致性及潜在报告偏差对分析结论的影响。
背景与挑战
背景概述
在全球化与可持续发展议程的推动下,对各国社会经济与环境状况进行系统性量化评估成为国际发展研究的关键课题。世界银行集团作为权威的国际金融机构,长期致力于构建全球发展指标体系,为政策制定与学术研究提供数据支撑。该数据集由世界银行集团创建,并由Electric Sheep Africa于2026年重新整理发布,聚焦于马里国家1960年至2025年间跨经济、社会、环境、健康、教育、能源等多维度的综合指标。其核心研究问题在于通过标准化数据揭示马里的长期发展轨迹与结构性特征,为发展经济学、公共政策分析与区域研究提供实证基础,对理解非洲国家的发展挑战与机遇具有重要参考价值。
当前挑战
该数据集旨在解决多维发展指标的整合与建模问题,其核心挑战在于如何从高度异质且跨领域的指标中提取一致且可解释的发展模式。具体而言,指标涵盖农业、金融、健康、气候等二十余个主题,数值范围跨越极大,且存在定义不一致与时间序列断裂的风险,这为构建稳健的预测或分类模型带来复杂性。在构建过程中,数据清洗面临统一缺失值标记、去除重复条目以及处理原始数据中可能存在的报告偏差与方法论差异等挑战,自动化流程难以完全校正源数据中的概念不一致或抽样偏差,需依赖发布机构的元数据说明进行审慎解读。
常用场景
经典使用场景
在非洲发展研究领域,该数据集作为马里国家多维度指标的权威汇编,常被用于构建时间序列分析模型。研究者利用其涵盖1960年至2025年的经济、社会、环境、健康、教育及能源等领域的指标数据,通过机器学习方法预测国家发展趋势,例如基于历史数据模拟国内生产总值构成或城市化进程的演变轨迹。
实际应用
在实际应用层面,该数据集为国际组织、政府机构及非营利组织提供了决策支持工具。例如,在制定马里国家发展战略时,分析师可依据能源消耗与教育投入的关联指标优化资源分配;人道主义机构则能借助健康与环境数据评估区域脆弱性,设计针对性干预方案。
衍生相关工作
围绕该数据集衍生的经典工作包括基于机器学习的可持续发展目标预测模型,以及利用面板数据进行的跨国比较研究。例如,学者通过集成分类算法分析指标间的交互效应,发表了关于西非地区经济增长驱动因素的系列成果;另有研究将其与遥感数据融合,构建了气候韧性评估的创新框架。
以上内容由遇见数据集搜集并总结生成



