five

electricsheepafrica/africa-ethiopia-mpi

收藏
Hugging Face2026-04-04 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ethiopia-mpi
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: other multilinguality: - monolingual size_categories: - n<1K source_datasets: - original task_categories: - tabular-classification - tabular-regression - other task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - development - education - health - indicators - mortality - nutrition - poverty - socioeconomics - eth pretty_name: "Ethiopia Multidimensional Poverty Index" dataset_info: splits: - name: train num_examples: 9 - name: test num_examples: 2 --- # Ethiopia Multidimensional Poverty Index **Publisher:** Oxford Poverty & Human Development Initiative · **Source:** [HDX](https://data.humdata.org/dataset/ethiopia-mpi) · **License:** `other-pd-nr` · **Updated:** 2026-03-05 --- ## Abstract The global Multidimensional Poverty Index provides the only comprehensive measure available for non-income poverty, which has become a critical underpinning of the SDGs. The global Multidimensional Poverty Index (MPI) measures multidimensional poverty in over 100 developing countries, using internationally comparable datasets and is updated annually. The measure captures the acute deprivations that each person faces at the same time using information from 10 indicators, which are grouped into three equally weighted dimensions: health, education, and living standards. Critically, the MPI comprises variables that are already reported under the Demographic Health Surveys (DHS), the Multi-Indicator Cluster Surveys (MICS) and in some cases, national surveys. The subnational multidimensional poverty data from the [data tables](https://ophi.org.uk/global-mpi-archive) are published by the Oxford Poverty and Human Development Initiative (OPHI), University of Oxford. For the details of the global MPI methodology, please see the latest Methodological Notes [found here](https://ophi.org.uk/publications-table?title=&field_authors_value=&field_publication_type_target_id=11&publication_year_filter=All&field_keywords_value=&field_country_target_id=All&field_region_target_id=All). Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-05. Geographic scope: **ETH**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Public health | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 12 | | **Columns** | 13 (5 numeric, 6 categorical, 0 datetime) | | **Train split** | 9 rows | | **Test split** | 2 rows | | **Geographic scope** | ETH | | **Publisher** | Oxford Poverty & Human Development Initiative | | **HDX last updated** | 2026-03-05 | --- ## Variables **Geographic** — `country_iso3` (ETH), `admin_1_pcode` (ET01, ET02, ET03), `admin_1_name` (Tigray, Afar, Amhara), `intensity_of_deprivation` (range 37.9722–58.8349), `vulnerable_to_poverty` (range 7.2558–29.9259) and 2 others. **Temporal** — `start_date`, `end_date`. **Outcome / Measurement** — `headcount_ratio` (range 11.4058–89.9963). **Identifier / Metadata** — `esa_source` (HDX), `esa_processed` (2026-04-04). **Other** — `mpi` (range 0.0433–0.5295). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-ethiopia-mpi") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `country_iso3` | object | 0.0% | ETH | | `admin_1_pcode` | object | 8.3% | ET01, ET02, ET03 | | `admin_1_name` | object | 8.3% | Tigray, Afar, Amhara | | `mpi` | float64 | 0.0% | 0.0433 – 0.5295 (mean 0.3205) | | `headcount_ratio` | float64 | 0.0% | 11.4058 – 89.9963 (mean 60.1622) | | `intensity_of_deprivation` | float64 | 0.0% | 37.9722 – 58.8349 (mean 51.8225) | | `vulnerable_to_poverty` | float64 | 0.0% | 7.2558 – 29.9259 (mean 16.7524) | | `in_severe_poverty` | float64 | 0.0% | 1.2941 – 69.7939 (mean 36.2955) | | `survey` | object | 0.0% | DHS | | `start_date` | datetime64[ns, UTC] | 0.0% | | | `end_date` | datetime64[ns, UTC] | 0.0% | | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-04 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `mpi` | 0.0433 | 0.5295 | 0.3205 | 0.3506 | | `headcount_ratio` | 11.4058 | 89.9963 | 60.1622 | 67.0584 | | `intensity_of_deprivation` | 37.9722 | 58.8349 | 51.8225 | 52.4864 | | `vulnerable_to_poverty` | 7.2558 | 29.9259 | 16.7524 | 16.7031 | | `in_severe_poverty` | 1.2941 | 69.7939 | 36.2955 | 36.205 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. 2 column(s) were cast from string to numeric or datetime based on parse-success rate (>85% threshold). The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from Oxford Poverty & Human Development Initiative and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/ethiopia-mpi) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_ethiopia_mpi, title = {Ethiopia Multidimensional Poverty Index}, author = {Oxford Poverty & Human Development Initiative}, year = {2026}, url = {https://data.humdata.org/dataset/ethiopia-mpi}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*

--- 注释创建者: - 无注释 语言来源: - 公开获取 语言: - 英语 授权协议: - 其他 多语言属性: - 单语言 数据规模类别: - n<1K(少于1000条样本) 源数据集: - 原创数据集 任务类别: - 表格分类 - 表格回归 - 其他 任务子类别: - 无 标签: - 非洲 - 人道主义 - HDX - electric-sheep-africa - 发展 - 教育 - 健康 - 指标 - 死亡率 - 营养 - 贫困 - 社会经济学 - eth 数据集名称:"埃塞俄比亚多维贫困指数" 数据集信息: 数据集划分: - 名称:训练集 样本数量:9 - 名称:测试集 样本数量:2 --- # 埃塞俄比亚多维贫困指数(Multidimensional Poverty Index, MPI) **发布方**:牛津贫困与人类发展倡议(Oxford Poverty & Human Development Initiative) · **数据源**:[HDX(人道主义数据交换平台,Humanitarian Data Exchange)](https://data.humdata.org/dataset/ethiopia-mpi) · **授权协议**:`other-pd-nr` · **最后更新时间**:2026-03-05 --- ## 摘要 全球多维贫困指数(Multidimensional Poverty Index, MPI)是目前唯一可用于衡量非收入贫困的综合指标,已成为可持续发展目标(Sustainable Development Goals, SDGs)的重要支撑。全球MPI覆盖100余个发展中国家,采用国际可比数据集并每年更新。该指标通过10项指标捕捉个体同时面临的多维贫困剥夺状况,这10项指标被划分为三个权重均等的维度:健康、教育与生活水平。值得注意的是,MPI所包含的变量已在人口与健康调查(Demographic Health Surveys, DHS)、多指标集群调查(Multi-Indicator Cluster Surveys, MICS)以及部分国家调查中进行了上报。 由牛津大学牛津贫困与人类发展倡议(Oxford Poverty & Human Development Initiative, OPHI)发布的次国家级多维贫困数据可从[数据表格](https://ophi.org.uk/global-mpi-archive)获取。如需了解全球MPI方法论的详细信息,请参阅最新版方法论说明[详见此处](https://ophi.org.uk/publications-table?title=&field_authors_value=&field_publication_type_target_id=11&publication_year_filter=All&field_keywords_value=&field_country_target_id=All&field_region_target_id=All)。 本数据集的每一行均代表国家级聚合数据。HDX平台上的最后更新时间为2026-03-05。地理覆盖范围:**ETH(埃塞俄比亚)**。 *本数据集已由[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)整理为适合机器学习的Parquet格式。* --- ## 数据集特征 | | | |---|---| | **领域** | 公共卫生 | | **观测单元** | 国家级聚合数据 | | **总行数** | 12 | | **列数** | 13(5个数值型、6个分类型、0个日期时间型) | | **训练集划分** | 9行 | | **测试集划分** | 2行 | | **地理覆盖范围** | ETH | | **发布方** | 牛津贫困与人类发展倡议 | | **HDX最后更新时间** | 2026-03-05 | --- ## 变量 **地理类变量**:`country_iso3`(ETH,埃塞俄比亚ISO3代码)、`admin_1_pcode`(ET01、ET02、ET03,一级行政区代码)、`admin_1_name`(提格雷、阿法尔、阿姆哈拉,一级行政区名称)、`intensity_of_deprivation`(剥夺强度,取值范围37.9722–58.8349)、`vulnerable_to_poverty`(贫困脆弱性,取值范围7.2558–29.9259)及另外2个变量。 **时间类变量**:`start_date`(开始日期)、`end_date`(结束日期)。 **结果/测量类变量**:`headcount_ratio`(贫困发生率,取值范围11.4058–89.9963)。 **标识符/元数据类变量**:`esa_source`(数据来源,HDX)、`esa_processed`(数据处理时间,2026-04-04)。 **其他变量**:`mpi`(多维贫困指数,取值范围0.0433–0.5295)。 --- ## 快速开始 python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-ethiopia-mpi") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() --- ## 数据模式 | 列名 | 数据类型 | 空值占比 | 取值范围/示例值 | |---|---|---|---| | `country_iso3` | object | 0.0% | ETH | | `admin_1_pcode` | object | 8.3% | ET01、ET02、ET03 | | `admin_1_name` | object | 8.3% | 提格雷、阿法尔、阿姆哈拉 | | `mpi` | float64 | 0.0% | 0.0433 – 0.5295(均值0.3205) | | `headcount_ratio` | float64 | 0.0% | 11.4058 – 89.9963(均值60.1622) | | `intensity_of_deprivation` | float64 | 0.0% | 37.9722 – 58.8349(均值51.8225) | | `vulnerable_to_poverty` | float64 | 0.0% | 7.2558 – 29.9259(均值16.7524) | | `in_severe_poverty` | float64 | 0.0% | 1.2941 – 69.7939(均值36.2955) | | `survey` | object | 0.0% | DHS | | `start_date` | datetime64[ns, UTC] | 0.0% | | | `end_date` | datetime64[ns, UTC] | 0.0% | | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-04 | --- ## 数值汇总 | 列名 | 最小值 | 最大值 | 均值 | 中位数 | |---|---|---|---|---| | `mpi` | 0.0433 | 0.5295 | 0.3205 | 0.3506 | | `headcount_ratio` | 11.4058 | 89.9963 | 60.1622 | 67.0584 | | `intensity_of_deprivation` | 37.9722 | 58.8349 | 51.8225 | 52.4864 | | `vulnerable_to_poverty` | 7.2558 | 29.9259 | 16.7524 | 16.7031 | | `in_severe_poverty` | 1.2941 | 69.7939 | 36.2955 | 36.205 | --- ## 数据整理 原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。列名统一转换为小写并采用蛇形命名法(snake_case)进行标准化。常见缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)被统一替换为`NaN`。根据解析成功率(阈值>85%),将2列从字符串类型转换为数值型或日期时间型。本数据集以固定随机种子(42)按80/20比例划分为训练集与测试集,并保存为Snappy压缩的Parquet格式。 --- ## 局限性 - 数据源自牛津贫困与人类发展倡议,未经Electric Sheep Africa独立验证。 - 自动化清洗无法修正原始数据收集中的错报值、定义不一致或抽样偏差问题。 - 请参阅[原始HDX数据集页面](https://data.humdata.org/dataset/ethiopia-mpi)获取发布方提供的方法论说明与免责声明。 --- ## 引用 bibtex @dataset{hdx_africa_ethiopia_mpi, title = {Ethiopia Multidimensional Poverty Index}, author = {Oxford Poverty & Human Development Initiative}, year = {2026}, url = {https://data.humdata.org/dataset/ethiopia-mpi}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在公共健康与发展经济学领域,多维贫困指数(MPI)已成为衡量非收入贫困的关键工具。该数据集由牛津贫困与人类发展倡议(OPHI)基于国际可比性调查构建,原始数据来源于人口健康调查(DHS)和多指标类集调查(MICS)等国家级调查。通过整合健康、教育和生活标准三个维度的10项指标,数据集以国家层面聚合形式呈现,并由Electric Sheep Africa团队从人道主义数据交换平台(HDX)获取,经过标准化清洗与格式转换,最终转化为适合机器学习应用的Parquet格式。
特点
数据集聚焦于埃塞俄比亚的多维贫困状况,其核心特征体现在结构化与标准化设计上。作为小规模数据集,它包含12行观测记录,涵盖13个变量,其中5个数值型指标如多维贫困指数(MPI)、贫困发生率等,6个分类变量包括行政区划代码与名称。数据以80/20比例划分为训练集与测试集,确保模型评估的可靠性。所有字段均经过统一的缺失值处理与类型转换,地理范围精确限定于埃塞俄比亚国家层面,为区域发展政策分析提供了高一致性的基准数据。
使用方法
在应用层面,该数据集适用于表格分类与回归任务,尤其适合探索社会经济指标间的关联模式。用户可通过Hugging Face的datasets库直接加载数据,并利用Pandas进行进一步分析。典型工作流程包括加载数据集、转换为DataFrame格式,继而开展描述性统计与可视化探索。鉴于其结构化特征,研究者可构建预测模型,评估各维度贫困指标的相互作用,或结合地理变量进行空间异质性分析,为发展干预措施提供数据驱动的决策支持。
背景与挑战
背景概述
多维贫困指数(MPI)作为衡量非收入贫困的核心工具,由牛津大学贫困与人类发展研究中心于2010年正式提出,旨在突破传统单一收入指标的局限,从健康、教育和生活水平三个维度综合评估个体面临的剥夺状况。该指数依托人口健康调查和多指标类集调查等国际可比数据,为全球发展议程特别是可持续发展目标提供了关键实证基础。埃塞俄比亚多维贫困指数数据集由牛津贫困与人类发展研究中心发布,经Electric Sheep Africa机构进行机器学习适配化处理,以国家层级聚合数据形式呈现,涵盖了贫困发生率、剥夺强度等关键指标,为研究撒哈拉以南非洲地区的贫困动态与政策干预效果提供了精细化数据支撑。
当前挑战
在贫困研究领域,如何精准量化非货币性剥夺并实现跨区域可比性始终是核心挑战,多维贫困指数通过多维度指标整合虽部分回应了这一问题,但其依赖的调查数据可能存在抽样偏差与定义不一致性,影响跨时域分析的稳健性。数据集构建过程中,原始数据来自异构调查体系,需统一清洗缺失值与标准化字段,但自动化处理难以修正原始收集中的误报值或方法论差异;此外,数据集规模较小且以国家层级聚合,限制了微观机制分析与高分辨率空间建模的应用潜力,对机器学习模型的泛化能力提出考验。
常用场景
经典使用场景
在公共健康与发展经济学领域,多维贫困指数数据集为研究者提供了量化非收入贫困的标准化工具。该数据集最经典的使用场景在于评估埃塞俄比亚各地区在健康、教育和生活标准三个维度上的剥夺状况,通过整合人口健康调查等多源数据,构建了涵盖贫困发生率、剥夺强度等关键指标的面板数据。研究人员能够利用这些结构化信息,深入分析贫困的空间分布特征及其动态演变规律,为制定精准的区域发展政策奠定实证基础。
解决学术问题
该数据集有效解决了发展经济学中关于贫困测度的若干核心学术问题。传统收入贫困指标难以全面反映个体在医疗、教育等多维度的剥夺状况,而多维贫困指数通过融合十个具体指标,构建了更为综合的贫困衡量框架。这一方法不仅突破了单一经济指标的局限性,还为联合国可持续发展目标的监测提供了可操作的工具,推动了贫困研究从理论构建向实证评估的范式转变,对完善全球贫困治理体系具有深远影响。
衍生相关工作
围绕该数据集衍生的经典研究主要集中在贫困预测模型与政策模拟领域。学者们利用机器学习方法,结合地理空间数据构建贫困风险预警系统,例如基于随机森林算法预测区域贫困动态。同时,该数据常被用于评估教育补贴、医疗覆盖等具体政策对多维贫困的缓解效应,相关成果发表于《世界发展》等国际期刊。此外,数据还被整合进全球贫困数据库,支持跨国比较研究,深化了对贫困形成机制的理解。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作