five

electricsheepafrica/africa-who-annual-tax-revenues-total-revenues

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-annual-tax-revenues-total-revenues
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了非洲各国2004年至2022年期间的世界卫生组织全球健康观察指标Annual tax revenues - total revenues(`Rev_govt_total`)的国家级观测数据。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator Annual tax revenues - total revenues (`Rev_govt_total`) across African nations, spanning 2004–2022. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球健康观察站(WHO GHO)的ODATA API,聚焦于非洲国家的年度税收收入占总收入比重这一关键健康经济指标(指标代码:Rev_govt_total)。数据经过系统性采集与标准化处理,以Parquet文件格式封装,并统一采用NumericValue字段中的浮点精度数值,而非显示字符串。同时,数据集保留了置信区间上下界(value_low与value_high)字段,以支持不确定性分析。构建过程中严格筛选了WHO AFRO区域(ParentLocationCode = 'AFR')的31个非洲国家,时间跨度覆盖2004年至2022年,最终形成包含58条观测记录的紧凑型数据集。
特点
该数据集最显著的特点在于其高度的结构化与机器学习友好性。所有字段均遵循一致的模式(Schema),包含国家ISO代码、年份、数值估计值及置信区间等核心列。数据集无子维度分层(每个国家/年份组合仅对应一条记录),避免了复杂的数据过滤需求,极大简化了分析流程。此外,数据来源权威(WHO官方),许可协议开放(CC BY 4.0),且由Electric Sheep Africa项目重新封装,确保了长期可获取性与可复现性。对于聚焦非洲地区卫生经济与公共财政的研究者而言,这是一个精准且易于集成的数据资产。
使用方法
使用该数据集时,可通过HuggingFace的datasets库直接加载,调用load_dataset函数即可获取训练集('train'),并便捷地转换为Pandas DataFrame进行后续操作。为聚焦于国家级且不分性别的分析,建议过滤dim1字段为缺失或末尾包含'_BTSX'(两性合计)的记录。对于时间序列分析,可按国家ISO代码(如'KEN'代表肯尼亚)筛选数据,并依据年份排序。数据集适用于表格分类与回归任务,用户可根据value_numeric字段作为主要的机器学习目标变量,结合置信区间进行模型不确定性评估。
背景与挑战
背景概述
该数据集来源于世界卫生组织(WHO)全球卫生观察站(GHO),由Electric Sheep Africa团队于2022年整理发布,聚焦非洲国家2004至2022年间年度税收收入占总收入的比例(指标代码Rev_govt_total)。数据集覆盖31个非洲国家,共58条观测记录,旨在填补非洲地区卫生经济与财政政策交叉领域的数据鸿沟。作为首个针对非洲大陆、面向机器学习友好的税收-卫生关联数据集,它通过统一Parquet格式和标准化Schema,为研究资源有限地区的政府财政收入波动与公共卫生支出效率提供了基础数据支撑,尤其服务于WHO非洲区域(AFRO)的跨国比较与时间序列分析。该数据集的发布推动了非洲卫生经济学从定性描述向定量建模的范式转化,成为评估税收政策对健康产出影响的关键实证工具。
当前挑战
数据集面临的核心领域挑战在于:非洲国家普遍存在非正规经济占比高、税收征管能力薄弱等问题,导致官方税收数据与真实收入之间存在系统性偏差,可能引发模型对财政健康度的误判。此外,数据仅涵盖31个国家且时间跨度有限(19年),缺失值较多(如置信区间仅部分可用),难以支撑复杂时间序列预测或空间计量分析。构建过程中,原始WHO OData API返回的字符串格式数值需经过清洗转化为浮点精度字段(NumericValue),且需处理多维度分层(如性别、城乡)带来的冗余行问题。样本量不足1K使得直接应用深度学习或因果推断方法面临过拟合风险,亟需数据增强或迁移学习策略来缓解稀疏性带来的统计效力局限。
常用场景
经典使用场景
该数据集聚焦于非洲国家年度税收收入占政府总收入的比例,为公共卫生与财政交叉领域的研究提供了标准化、机器可读的时序数据。典型使用场景包括构建面板数据回归模型,以探究税收能力与健康指标(如人均医疗支出、疾病负担)之间的动态关联,或作为控制变量纳入卫生系统效率分析。借助统一的Parquet格式与清晰的分列结构,研究者可便捷地按国家或年份进行过滤与聚合,适用于跨国的纵向对比分析。
解决学术问题
在学术层面,该数据集解决了非洲地区政府财政数据碎片化、口径不统一的长期困境,为量化税收结构对公共健康治理的影响提供了可靠来源。它支持验证税收自主权与卫生筹资可持续性之间的理论假设,帮助识别低税收能力国家在应对突发公共卫生事件时的财政脆弱性。通过补充WHO全球卫生观测站的核心指标,推动了卫生经济学中财政空间(fiscal space)概念的实证检验,深化了对政府收入构成与健康产出关系的理解。
衍生相关工作
该数据集衍生了一系列标志性工作,包括Electric Sheep Africa系列中与其他WHO GHO指标(如政府卫生支出占比、免疫覆盖率)的联合分析,构建了非洲财政-健康全景数据湖。研究者在此基础上开发了税收弹性估算工具包与缺失值插补基准,推动了低资源环境下数据增强方法的发展。部分经典论文利用该数据集验证了税收合规性与治理质量指标之间的非线性关系,为后续运用因果森林等异质性处理方法探究税收改革健康效应的研究奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务