electricsheepafrica/africa-who-annual-tax-revenues-value-added-tax-and-other-sales-taxes
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-annual-tax-revenues-value-added-tax-and-other-sales-taxes
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2011年至2022年间世界卫生组织全球健康观察站(GHO)指标年度税收-增值税(VAT)和其他销售税(Rev_VAT)的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO全球健康观察站OData API,并重新打包为具有一致架构的Parquet文件。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖33个非洲国家,共63行数据。
This dataset contains country-level observations for the WHO GHO indicator "Annual tax revenues - value added tax (vat) and other sales taxes" (`Rev_VAT`) across African nations, spanning 2011–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,围绕非洲地区2011至2022年间增值税及其他销售税的年税收收入指标(Rev_VAT)进行系统整合。数据经过重新封装,以标准的Parquet格式呈现,并保持一致的字段模式。所有观测值均取自原始数值字段(NumericValue),而非显示字符串,以确保精度。在可获得的情况下,数据集还包含了置信区间的上下界,从而为统计学分析提供了支持。数据覆盖了33个非洲国家,共计63条记录,所有数据仅限WHO AFRO区域。
特点
该数据集的核心特质在于其针对非洲税收领域的细粒度时间序列观测,每条记录对应特定国家在特定年份的税收收入点估计值,并伴随置信区间信息,极大便利了后续的回归或分类任务。数据无额外子维度,即每个国家-年份组合唯一对应一个观测值,这种简洁的结构消除了分层聚合的复杂度。此外,数据集经过ML-ready的预处理,以统一模式存放于Parquet文件中,可直接通过Hugging Face Datasets库加载使用,极大降低了数据接入门槛。
使用方法
使用者可通过Hugging Face Datasets库中的load_dataset函数轻松将数据加载为pandas DataFrame,从而进行探索性分析或建模。在分析全国层面的总体趋势时,建议过滤dim1字段以保留含“BTSX”后缀的两性合计记录,或直接筛选dim1为空的条目。对于特定国家的纵向研究,可依据country_iso3字段(如‘KEN’代表肯尼亚)切片并按年份排序,以获取连续的时间轴数据。这种灵活的数据切片方式适用于面板数据回归、税收政策效果评估等应用场景。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2022年创建,并经Electric Sheep Africa团队重新打包为机器学习就绪格式,聚焦于非洲国家2011至2022年间增值税及其他销售税的年度税收收入。核心研究问题在于揭示非洲地区税收结构对公共卫生体系资金筹措的影响,尤其是税收收入作为卫生系统可持续性的关键指标。作为WHO GHO框架下的一个标准化指标(Rev_VAT),该数据集为跨国家、跨时间的比较分析提供了统一数值基础,已初步覆盖33个非洲国家,在健康经济学、税收政策与公共卫生交叉研究领域具有独特价值。其开源许可(CC BY 4.0)和结构化Parquet格式显著降低了数据获取与整合门槛,推动了区域健康融资的实证研究。
当前挑战
构建过程中面临的核心挑战包括:首先,非洲国家税收数据收集能力参差,导致部分国家或年份存在空缺,数据集仅含63条记录,样本稀疏性限制了稳健机器学习模型的训练与推广。其次,数据来源依赖WHO官方API,转换过程中需确保NumericValue字段的数值精度与显示字符串一致,并处理置信区间缺失问题,这增加了数据清洗的复杂性。最后,指标本身虽无子维度,但税收概念在各国定义与征管实践中差异显著,直接比较可能隐含统计口径异质性风险,要求研究者必须结合国家背景谨慎解读。领域层面,该数据集服务于解决税收健康融资评估领域的数据碎片化挑战,但稀疏覆盖与跨文化可比性仍亟待扩展与深化。
常用场景
经典使用场景
非洲各国增值税及其他销售税类年度税收收入数据集(africa-who-annual-tax-revenues-value-added-tax-and-other-sales-taxes)源自世界卫生组织全球卫生观察站,覆盖2011至2022年间33个非洲国家的税收指标。该数据集的经典使用场景集中于时间序列分析与跨区域比较研究,通过整合多年份、多国别的税收记录,研究者能够追踪非洲大陆税收政策的变迁轨迹,评估不同经济体在税收征管效率上的差异,并构建预测模型以洞察税收收入与公共卫生支出之间的内在关联。
衍生相关工作
该数据集衍生了一系列重要的学术研究与工具开发工作。研究者基于此数据构建了非洲税收健康支出联动模型,发表了关于增值税与公共卫生资金关系的高影响力论文。数据科学家利用其标准化的时间序列结构,开发了适用于低资源环境的税收预测机器学习基准。同时,该数据集被整合进更广泛的非洲社会经济发展数据库中,成为跨学科综合分析非洲财政健康关系的核心数据源之一,并催生了多项关于税收政策与可持续发展目标关联的后续量化研究。
数据集最近研究
最新研究方向
该数据集聚焦于非洲国家增值税及其他销售税的年度税收收入,为分析非洲财政健康状况与公共卫生投资能力提供了关键指标。当前前沿研究依托这一数据,挖掘税收波动与医疗支出、传染病防控及健康体系韧性之间的关联,尤其在新冠疫情后,税收政策对非洲全民健康覆盖的支撑作用成为热点。通过将税收数据与WHO全球健康观察站的其他指标交叉分析,研究者得以量化财政空间对公共卫生应急响应的制约,推动以证据为基础的健康财税改革。这一数据集的机器就绪格式还为自动化税务预测模型与健康经济模拟提供了底层支撑,助力非洲国家在资源受限背景下制定更可持续的公共财政策略。
以上内容由遇见数据集搜集并总结生成



