five

electricsheepafrica/africa-disability-ethiopia

收藏
Hugging Face2026-04-26 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-disability-ethiopia
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为埃塞俄比亚 - 健康指标,由世界卫生组织发布,数据来源于HDX平台。它涵盖了埃塞俄比亚的多种健康相关指标,包括空气污染、疟疾、妇幼健康、非传染性疾病、营养、卫生系统等类别。数据集中的每一行代表一级行政单位的观测数据,共包含19,651行(训练集15,720行,测试集3,930行)和19个特征列(6个数值型,13个分类型)。数据最后更新于2025年2月7日,地理范围限定为埃塞俄比亚(ETH)。数据集经过Electric Sheep Africa团队整理,转换为适合机器学习的Parquet格式,可用于表格分类等任务。

annotations_creators: - 无标注 language_creators: - 现有资源采集 language: - 英语 license: - 其他 multilinguality: - 单语言 size_categories: - 1万<n<10万 source_datasets: - 原创数据集 task_categories: - 表格分类任务 task_ids: [] tags: - 非洲 - 人道主义 - HDX(人道主义数据交换平台,Humanitarian Data Exchange) - 残障 - 疾病 - 环境 - 健康 - HXL(人道主义交换语言,Humanitarian Exchange Language) - 指标 - 疟疾 - 孕产健康 - ETH(埃塞俄比亚国家代码) pretty_name: "埃塞俄比亚——健康指标数据集" dataset_info: 数据划分: - 名称: 训练集 样本数: 15720 - 名称: 测试集 样本数: 3930 # 埃塞俄比亚——健康指标数据集 **发布方:世界卫生组织(World Health Organization,WHO) · 数据源:[HDX(人道主义数据交换平台,Humanitarian Data Exchange)](https://data.humdata.org/dataset/who-data-for-ethiopia) · 许可协议:`hdx-other` · 最后更新时间:2025-02-07** --- ## 摘要 本数据集包含源自世界卫生组织[数据门户](https://www.who.int/gho/en/)的观测数据,涵盖以下类别: 空气污染、抗菌药物耐药性(Antimicrobial Resistance, AMR)、辅助技术、儿童死亡率、痴呆诊断、治疗与照护、痴呆政策与立法、环境与健康、食源性疾病估算、全球痴呆观测站(Global Dementia Observatory, GDO)、全球健康估算:预期寿命与主要死亡及残障原因、全球酒精与健康信息系统、艾滋病病毒感染、健康不平等监测、卫生筹资、卫生系统、健康税、卫生人力、肝炎、免疫接种覆盖率与疫苗可预防疾病、《国际卫生条例(2005)》监测框架、疟疾、孕产与生殖健康、心理健康、被忽视的热带病、非传染性疾病、营养、口腔健康、优先卫生技术、物质使用障碍资源、道路安全、可持续发展目标3.8 | 实现全民健康覆盖(Universal Health Coverage, UHC)、性传播感染、烟草控制、结核病、疫苗可预防传染病、针对女性的暴力行为、暴力预防、水、环境卫生与个人卫生(Water, Sanitation and Hygiene, WASH)、女性与健康、世界卫生统计。 如需获取单个指标元数据的链接,请参阅资源说明文档。 本数据集的每一行均代表一级行政单元的观测数据。该数据集最后一次于HDX平台更新的时间为2025年2月7日。地理覆盖范围:**ETH(埃塞俄比亚国家代码)**。 *本数据集已由[Electric Sheep Africa(电羊非洲团队)](https://huggingface.co/electricsheepafrica)整理为适用于机器学习的Parquet格式。* --- ## 数据集特征 | | | |---|---| | **领域** | 粮食安全与营养 | | **观测单元** | 一级行政单元观测数据 | | **总样本行数** | 19,651 | | **列数** | 19(6个数值列,13个分类列,0个日期时间列) | | **训练集划分** | 15,720行 | | **测试集划分** | 3,930行 | | **地理覆盖范围** | ETH | | **发布方** | 世界卫生组织 | | **HDX平台最后更新时间** | 2025-02-07 | --- ## 变量说明 ### 地理变量 `gho_display`(死亡数、每1000活产儿死亡数、<5岁儿童死亡原因分布(%))、`year_display`(取值范围:1961.0–2030.0)、`startyear`(取值范围:1961.0–2030.0)、`endyear`(取值范围:1961.0–2030.0)、`region_code`(AFR、#region+code)及另外4个变量。 ### 结果/测量变量 `value`。 ### 标识符/元数据变量 `gho_code`(MORT_100、MORT_200、MORT_300)、`dimension_code`(SEX_BTSX、SEX_FMLE、SEX_MLE)、`dimension_name`(男女合计、女性、男性)、`esa_source`、`esa_processed`。 ### 其他变量 `gho_url`(https://www.who.int/data/gho/data/indicators/indicator-details/GHO/number-of-deaths、https://www.who.int/data/gho/data/indicators/indicator-details/GHO/gho-ghe-life-tables-by-who-region-global-health-estimates、https://www.who.int/data/gho/data/indicators/indicator-details/GHO/distribution-of-causes-of-death-among-children-aged-5-years-%28-%29)、`numeric`(取值范围:-0.0007–77653029.0)、`low`(取值范围:-0.0378–1871772.125)、`high`(取值范围:0.0–2469584.25)。 --- ## 快速上手 python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-disability-ethiopia") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() --- ## 数据结构 | 列名 | 数据类型 | 空值占比 | 取值范围/示例值 | |---|---|---|---| | `gho_code` | object | 0.0% | MORT_100, MORT_200, MORT_300 | | `gho_display` | object | 0.0% | 死亡数、每1000活产儿死亡数、<5岁儿童死亡原因分布(%) | | `gho_url` | object | 0.0% | https://www.who.int/data/gho/data/indicators/indicator-details/GHO/number-of-deaths、https://www.who.int/data/gho/data/indicators/indicator-details/GHO/gho-ghe-life-tables-by-who-region-global-health-estimates、https://www.who.int/data/gho/data/indicators/indicator-details/GHO/distribution-of-causes-of-death-among-children-aged-5-years-%28-%29 | | `year_display` | float64 | 0.0% | 1961.0 – 2030.0(均值:2008.3805) | | `startyear` | float64 | 0.0% | 1961.0 – 2030.0(均值:2008.3766) | | `endyear` | float64 | 0.0% | 1961.0 – 2030.0(均值:2008.3805) | | `region_code` | object | 0.0% | AFR, #region+code | | `region_display` | object | 0.0% | 非洲, #region+name | | `country_code` | object | 0.0% | ETH, #country+code | | `country_display` | object | 0.0% | 埃塞俄比亚, #country+name | | `dimension_type` | object | 18.1% | SEX, RESIDENCEAREATYPE, AGEGROUP | | `dimension_code` | object | 18.1% | SEX_BTSX, SEX_FMLE, SEX_MLE | | `dimension_name` | object | 18.2% | 男女合计、女性、男性 | | `numeric` | float64 | 8.7% | -0.0007 – 77653029.0(均值:223997.6131) | | `value` | object | 0.2% | | | `low` | float64 | 45.4% | -0.0378 – 1871772.125(均值:10839.8891) | | `high` | float64 | 45.4% | 0.0 – 2469584.25(均值:17985.5284) | | `esa_source` | object | 0.0% | | | `esa_processed` | object | 0.0% | | --- ## 数值型变量统计摘要 | 列名 | 最小值 | 最大值 | 均值 | 中位数 | |---|---|---|---|---| | `year_display` | 1961.0 | 2030.0 | 2008.3805 | 2010.0 | | `startyear` | 1961.0 | 2030.0 | 2008.3766 | 2010.0 | | `endyear` | 1961.0 | 2030.0 | 2008.3805 | 2010.0 | | `numeric` | -0.0007 | 77653029.0 | 223997.6131 | 13.275 | | `low` | -0.0378 | 1871772.125 | 10839.8891 | 7.7156 | | `high` | 0.0 | 2469584.25 | 17985.5284 | 15.0 | --- ## 数据整理流程 原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。列名统一转换为小写并标准化为蛇形命名法。将常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。删除了174条完全重复的样本行。基于解析成功率(阈值>85%),将6列从字符串类型转换为数值或日期时间类型。本数据集以固定随机种子(42)按照80/20的比例划分为训练集与测试集,并保存为Snappy压缩的Parquet格式。 --- ## 数据集局限性 - 数据源自世界卫生组织,未经过电羊非洲团队的独立验证。 - 自动化清洗流程无法修正原始数据收集中的错报值、定义不一致或抽样偏差问题。 - 以下列的空值占比超过20%,在建模过程中需谨慎使用:`low`、`high`。 - 如需查看发布方的方法学说明与免责声明,请参阅[原始HDX数据集页面](https://data.humdata.org/dataset/who-data-for-ethiopia)。 --- ## 引用格式 bibtex @dataset{hdx_africa_disability_ethiopia, title = {Ethiopia - Health Indicators}, author = {World Health Organization}, year = {2025}, url = {https://data.humdata.org/dataset/who-data-for-ethiopia}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } --- *[Electric Sheep Africa(电羊非洲团队)](https://huggingface.co/electricsheepafrica)——非洲机器学习数据集基础设施提供商,尼日利亚拉各斯。*
提供机构:
electricsheepafrica
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作