electricsheepafrica/africa-disability-ethiopia
收藏Hugging Face2026-04-26 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-disability-ethiopia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为埃塞俄比亚 - 健康指标,由世界卫生组织发布,数据来源于HDX平台。它涵盖了埃塞俄比亚的多种健康相关指标,包括空气污染、疟疾、妇幼健康、非传染性疾病、营养、卫生系统等类别。数据集中的每一行代表一级行政单位的观测数据,共包含19,651行(训练集15,720行,测试集3,930行)和19个特征列(6个数值型,13个分类型)。数据最后更新于2025年2月7日,地理范围限定为埃塞俄比亚(ETH)。数据集经过Electric Sheep Africa团队整理,转换为适合机器学习的Parquet格式,可用于表格分类等任务。
annotations_creators:
- 无标注
language_creators:
- 现有资源采集
language:
- 英语
license:
- 其他
multilinguality:
- 单语言
size_categories:
- 1万<n<10万
source_datasets:
- 原创数据集
task_categories:
- 表格分类任务
task_ids: []
tags:
- 非洲
- 人道主义
- HDX(人道主义数据交换平台,Humanitarian Data Exchange)
- 残障
- 疾病
- 环境
- 健康
- HXL(人道主义交换语言,Humanitarian Exchange Language)
- 指标
- 疟疾
- 孕产健康
- ETH(埃塞俄比亚国家代码)
pretty_name: "埃塞俄比亚——健康指标数据集"
dataset_info:
数据划分:
- 名称: 训练集
样本数: 15720
- 名称: 测试集
样本数: 3930
# 埃塞俄比亚——健康指标数据集
**发布方:世界卫生组织(World Health Organization,WHO) · 数据源:[HDX(人道主义数据交换平台,Humanitarian Data Exchange)](https://data.humdata.org/dataset/who-data-for-ethiopia) · 许可协议:`hdx-other` · 最后更新时间:2025-02-07**
---
## 摘要
本数据集包含源自世界卫生组织[数据门户](https://www.who.int/gho/en/)的观测数据,涵盖以下类别:
空气污染、抗菌药物耐药性(Antimicrobial Resistance, AMR)、辅助技术、儿童死亡率、痴呆诊断、治疗与照护、痴呆政策与立法、环境与健康、食源性疾病估算、全球痴呆观测站(Global Dementia Observatory, GDO)、全球健康估算:预期寿命与主要死亡及残障原因、全球酒精与健康信息系统、艾滋病病毒感染、健康不平等监测、卫生筹资、卫生系统、健康税、卫生人力、肝炎、免疫接种覆盖率与疫苗可预防疾病、《国际卫生条例(2005)》监测框架、疟疾、孕产与生殖健康、心理健康、被忽视的热带病、非传染性疾病、营养、口腔健康、优先卫生技术、物质使用障碍资源、道路安全、可持续发展目标3.8 | 实现全民健康覆盖(Universal Health Coverage, UHC)、性传播感染、烟草控制、结核病、疫苗可预防传染病、针对女性的暴力行为、暴力预防、水、环境卫生与个人卫生(Water, Sanitation and Hygiene, WASH)、女性与健康、世界卫生统计。
如需获取单个指标元数据的链接,请参阅资源说明文档。
本数据集的每一行均代表一级行政单元的观测数据。该数据集最后一次于HDX平台更新的时间为2025年2月7日。地理覆盖范围:**ETH(埃塞俄比亚国家代码)**。
*本数据集已由[Electric Sheep Africa(电羊非洲团队)](https://huggingface.co/electricsheepafrica)整理为适用于机器学习的Parquet格式。*
---
## 数据集特征
| | |
|---|---|
| **领域** | 粮食安全与营养 |
| **观测单元** | 一级行政单元观测数据 |
| **总样本行数** | 19,651 |
| **列数** | 19(6个数值列,13个分类列,0个日期时间列) |
| **训练集划分** | 15,720行 |
| **测试集划分** | 3,930行 |
| **地理覆盖范围** | ETH |
| **发布方** | 世界卫生组织 |
| **HDX平台最后更新时间** | 2025-02-07 |
---
## 变量说明
### 地理变量
`gho_display`(死亡数、每1000活产儿死亡数、<5岁儿童死亡原因分布(%))、`year_display`(取值范围:1961.0–2030.0)、`startyear`(取值范围:1961.0–2030.0)、`endyear`(取值范围:1961.0–2030.0)、`region_code`(AFR、#region+code)及另外4个变量。
### 结果/测量变量
`value`。
### 标识符/元数据变量
`gho_code`(MORT_100、MORT_200、MORT_300)、`dimension_code`(SEX_BTSX、SEX_FMLE、SEX_MLE)、`dimension_name`(男女合计、女性、男性)、`esa_source`、`esa_processed`。
### 其他变量
`gho_url`(https://www.who.int/data/gho/data/indicators/indicator-details/GHO/number-of-deaths、https://www.who.int/data/gho/data/indicators/indicator-details/GHO/gho-ghe-life-tables-by-who-region-global-health-estimates、https://www.who.int/data/gho/data/indicators/indicator-details/GHO/distribution-of-causes-of-death-among-children-aged-5-years-%28-%29)、`numeric`(取值范围:-0.0007–77653029.0)、`low`(取值范围:-0.0378–1871772.125)、`high`(取值范围:0.0–2469584.25)。
---
## 快速上手
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-disability-ethiopia")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
---
## 数据结构
| 列名 | 数据类型 | 空值占比 | 取值范围/示例值 |
|---|---|---|---|
| `gho_code` | object | 0.0% | MORT_100, MORT_200, MORT_300 |
| `gho_display` | object | 0.0% | 死亡数、每1000活产儿死亡数、<5岁儿童死亡原因分布(%) |
| `gho_url` | object | 0.0% | https://www.who.int/data/gho/data/indicators/indicator-details/GHO/number-of-deaths、https://www.who.int/data/gho/data/indicators/indicator-details/GHO/gho-ghe-life-tables-by-who-region-global-health-estimates、https://www.who.int/data/gho/data/indicators/indicator-details/GHO/distribution-of-causes-of-death-among-children-aged-5-years-%28-%29 |
| `year_display` | float64 | 0.0% | 1961.0 – 2030.0(均值:2008.3805) |
| `startyear` | float64 | 0.0% | 1961.0 – 2030.0(均值:2008.3766) |
| `endyear` | float64 | 0.0% | 1961.0 – 2030.0(均值:2008.3805) |
| `region_code` | object | 0.0% | AFR, #region+code |
| `region_display` | object | 0.0% | 非洲, #region+name |
| `country_code` | object | 0.0% | ETH, #country+code |
| `country_display` | object | 0.0% | 埃塞俄比亚, #country+name |
| `dimension_type` | object | 18.1% | SEX, RESIDENCEAREATYPE, AGEGROUP |
| `dimension_code` | object | 18.1% | SEX_BTSX, SEX_FMLE, SEX_MLE |
| `dimension_name` | object | 18.2% | 男女合计、女性、男性 |
| `numeric` | float64 | 8.7% | -0.0007 – 77653029.0(均值:223997.6131) |
| `value` | object | 0.2% | |
| `low` | float64 | 45.4% | -0.0378 – 1871772.125(均值:10839.8891) |
| `high` | float64 | 45.4% | 0.0 – 2469584.25(均值:17985.5284) |
| `esa_source` | object | 0.0% | |
| `esa_processed` | object | 0.0% | |
---
## 数值型变量统计摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| `year_display` | 1961.0 | 2030.0 | 2008.3805 | 2010.0 |
| `startyear` | 1961.0 | 2030.0 | 2008.3766 | 2010.0 |
| `endyear` | 1961.0 | 2030.0 | 2008.3805 | 2010.0 |
| `numeric` | -0.0007 | 77653029.0 | 223997.6131 | 13.275 |
| `low` | -0.0378 | 1871772.125 | 10839.8891 | 7.7156 |
| `high` | 0.0 | 2469584.25 | 17985.5284 | 15.0 |
---
## 数据整理流程
原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。列名统一转换为小写并标准化为蛇形命名法。将常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。删除了174条完全重复的样本行。基于解析成功率(阈值>85%),将6列从字符串类型转换为数值或日期时间类型。本数据集以固定随机种子(42)按照80/20的比例划分为训练集与测试集,并保存为Snappy压缩的Parquet格式。
---
## 数据集局限性
- 数据源自世界卫生组织,未经过电羊非洲团队的独立验证。
- 自动化清洗流程无法修正原始数据收集中的错报值、定义不一致或抽样偏差问题。
- 以下列的空值占比超过20%,在建模过程中需谨慎使用:`low`、`high`。
- 如需查看发布方的方法学说明与免责声明,请参阅[原始HDX数据集页面](https://data.humdata.org/dataset/who-data-for-ethiopia)。
---
## 引用格式
bibtex
@dataset{hdx_africa_disability_ethiopia,
title = {Ethiopia - Health Indicators},
author = {World Health Organization},
year = {2025},
url = {https://data.humdata.org/dataset/who-data-for-ethiopia},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
---
*[Electric Sheep Africa(电羊非洲团队)](https://huggingface.co/electricsheepafrica)——非洲机器学习数据集基础设施提供商,尼日利亚拉各斯。*
提供机构:
electricsheepafrica



