africa-hdro-data-for-sierra-leone

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-hdro-data-for-sierra-leone

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“塞拉利昂 - 人类发展指标”，由联合国开发计划署人类发展报告办公室（HDRO）发布，数据来源于HDX平台。数据集旨在通过提供高质量、一致且国际可比的数据，促进关于人类发展相关议题的全球、区域和国家政策讨论。数据集包含塞拉利昂的国家级汇总数据，涵盖多个关键维度的人类发展指标，如健康、教育、性别平等和生活水平。数据集共包含872行数据，分为训练集（697行）和测试集（174行），每行数据代表国家级的汇总指标。数据集包含10个字段，其中2个为数值型，8个为分类变量。字段包括地理信息（如国家代码、国家名称）、指标ID和名称（如预期受教育年限、总人口）、指数ID和名称（如性别发展指数、人类发展指数）、数值（范围0.039–2138.975）以及年份（范围1990–2023）。数据集适用于表格分类和回归任务，特别适合用于公共健康、社会经济和政策研究等领域。数据经过清洗和标准化处理，转换为Parquet格式，并分为训练和测试集。

创建时间：

2026-04-09

原始信息汇总

Sierra Leone - Human Development Indicators 数据集概述

基本信息

数据集名称：Sierra Leone - Human Development Indicators
发布者：UNDP Human Development Reports Office (HDRO)
数据来源：HDX (https://data.humdata.org/dataset/hdro-data-for-sierra-leone)
许可协议：cc-by-igo
数据更新日期 (HDX)：2026-03-04
数据处理方：Electric Sheep Africa (https://huggingface.co/electricsheepafrica)
数据处理日期：2026-04-09
语言：英语
领域：公共健康、人文发展、社会经济

数据集内容

数据描述：该数据集包含塞拉利昂国家层面的人类发展指标汇总数据，旨在评估国家发展水平，强调以人民及其能力为最终标准。核心指标包括人类发展指数（HDI）、性别发展指数（GDI）、性别不平等指数（GII）以及多维贫困指数（MPI）相关数据，用于监测可持续发展目标（SDG 1）的进展。
地理范围：塞拉利昂 (SLE)
观测单位：国家层面汇总数据
总行数：872
总列数：10
数据划分：
- 训练集：697 行
- 测试集：174 行

变量与结构

变量列表

地理信息：
- country_code：国家代码 (SLE)
- country_name：国家名称 (Sierra Leone)
- index_id：指数ID (GDI, GII, HDI)
- index_name：指数名称 (Gender Development Index, Gender Inequality Index, Human Development Index)
- year：年份 (范围：1990.0–2023.0)
结果/测量值：
- value：指标数值 (范围：0.039–2138.975)
标识符/元数据：
- indicator_id：指标ID (eys, pop_total, mys_f)
- indicator_name：指标名称 (Expected Years of Schooling (years), Population, total (millions), Mean Years of Schooling, female (years))
- esa_source：数据源 (HDX)
- esa_processed：处理日期 (2026-04-09)

数据模式 (Schema)

列名	类型	空值比例	范围/示例值
`country_code`	object	0.0%	SLE
`country_name`	object	0.0%	Sierra Leone
`indicator_id`	object	0.0%	eys, pop_total, mys_f
`indicator_name`	object	0.0%	Expected Years of Schooling (years), Population, total (millions), Mean Years of Schooling, female (years)
`index_id`	object	0.0%	GDI, GII, HDI
`index_name`	object	0.0%	Gender Development Index, Gender Inequality Index, Human Development Index
`value`	float64	0.0%	0.039 – 2138.975 (均值 195.1942)
`year`	int64	0.0%	1990.0 – 2023.0 (均值 2008.75)
`esa_source`	object	0.0%	HDX
`esa_processed`	object	0.0%	2026-04-09

数值摘要

列名	最小值	最大值	均值	中位数
`value`	0.039	2138.975	195.1942	13.303
`year`	1990.0	2023.0	2008.75	2010.0

数据处理与使用

数据格式：ML-ready Parquet 格式
处理步骤：从HDX通过CKAN API下载原始数据，转换为Parquet格式。列名转为小写蛇形命名，统一常见缺失值标记为NaN。使用固定随机种子（42）按80/20比例划分为训练集和测试集，并保存为Snappy压缩的Parquet文件。
快速使用： python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-hdro-data-for-sierra-leone") train = ds["train"].to_pandas() test = ds["test"].to_pandas()

局限性说明

数据来源于UNDP人类发展报告办公室（HDRO），未经ESA独立验证。
自动清洗无法纠正原始数据中误报的值、定义不一致或抽样偏差。
详细的方法论说明和注意事项请参考原始HDX数据集页面 (https://data.humdata.org/dataset/hdro-data-for-sierra-leone)。

引用信息

bibtex @dataset{hdx_africa_hdro_data_for_sierra_leone, title = {Sierra Leone - Human Development Indicators}, author = {UNDP Human Development Reports Office (HDRO)}, year = {2026}, url = {https://data.humdata.org/dataset/hdro-data-for-sierra-leone}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总

数据集介绍

构建方式

在人类发展研究领域，数据质量与一致性是政策讨论的基石。该数据集由联合国开发计划署人类发展报告办公室（HDRO）编制，原始数据来源于人道主义数据交换平台（HDX），涵盖了塞拉利昂自1990年至2023年的国家层面聚合指标。Electric Sheep Africa团队通过CKAN API获取原始数据，进行了系统的数据清洗与标准化处理，包括统一缺失值标记、将列名转换为蛇形命名法，并采用固定随机种子将数据按80/20的比例划分为训练集与测试集，最终以Snappy压缩的Parquet格式存储，确保了数据的机器学习可用性与结构一致性。

特点

该数据集聚焦于塞拉利昂的人类发展多维指标，其核心特征体现在维度丰富性与时间连续性上。数据集共包含872条记录，涵盖10个变量，其中既包括人类发展指数、性别发展指数等综合指标，也涉及预期受教育年限、总人口等具体度量。数据以国家为观测单元，时间跨度超过三十年，为纵向分析提供了坚实基础。此外，所有字段均无缺失值，数值型变量如'value'范围广泛，从0.039到2138.975，反映了不同指标的量纲差异，而分类变量如'indicator_id'则清晰标识了测量维度，这种结构设计兼顾了机器学习任务的需求与人类发展研究的学术规范。

使用方法

在应用层面，该数据集适用于表格分类与回归任务，能够支持发展经济学与公共政策领域的实证研究。使用者可通过Hugging Face的datasets库直接加载数据，利用Python环境将数据集转换为Pandas DataFrame以进行后续分析。数据集已预分割为训练集与测试集，分别包含697条和174条记录，可直接用于模型训练与评估。典型分析场景包括预测人类发展指数的年度变化、探究教育指标与性别平等的关系，或构建多维贫困的监测模型。需要注意的是，原始数据的方法学说明与局限性应参考HDX发布页，以确保分析结论的稳健性与政策相关性。

背景与挑战

背景概述

人类发展指数（HDI）作为衡量国家综合发展水平的核心指标，自1990年由联合国开发计划署（UNDP）首次提出以来，便在全球发展研究领域确立了重要地位。该数据集由UNDP人类发展报告办公室（HDRO）与牛津大学贫困与人类发展倡议（OPHI）等机构联合构建，聚焦于塞拉利昂的国家级人类发展数据，涵盖健康、教育、性别平等及经济福祉等多维度指标。其核心研究问题在于突破传统以经济增长为单一标准的评估框架，转而强调以人的能力与发展为核心，旨在为政策制定者提供科学依据，推动全球可持续发展目标（SDGs）的实现，尤其在消除多维贫困方面具有深远影响力。

当前挑战

在解决人类发展评估的领域问题上，该数据集面临如何精准量化非经济维度、确保跨年度与跨国数据的可比性，以及整合性别不平等指数（GII）等多源指标的挑战。构建过程中，数据收集依赖于各国统计系统，可能遭遇原始数据缺失、统计口径不一致及报告延迟等问题；同时，将原始数据转化为机器学习可用格式时，需处理异常值统一与标准化清洗，但自动化流程难以修正源头存在的定义偏差或抽样误差，这限制了模型训练的可靠性。

常用场景

经典使用场景

在人类发展研究领域，该数据集为塞拉利昂国家层面的发展指标提供了结构化时序数据，涵盖健康、教育、性别平等与人口等多个维度。其经典使用场景在于支持机器学习模型进行回归与分类任务，例如预测未来年份的人类发展指数（HDI）或基于历史趋势识别发展瓶颈。研究人员能够利用训练集与测试集的划分，构建时间序列预测模型，评估政策干预对发展指标的长远影响，从而为发展经济学与公共政策分析提供量化依据。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在发展计量经济学与机器学习交叉领域。学者们利用其构建了时间序列预测模型，如ARIMA与LSTM网络，用于模拟塞拉利昂人类发展指数的未来轨迹。同时，该数据常被整合进跨国比较研究，作为非洲区域发展案例的基准，支撑了关于冲突后国家重建、卫生系统韧性等主题的学术论文。此外，基于数据开发的交互式可视化平台，使得发展指标能够以动态图表形式呈现，增强了公共传播与政策倡导的效能。

数据集最近研究