five

electricsheepafrica/africa-who-alcohol-21archived

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-alcohol-21archived
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含WHO GHO指标“非洲国家15岁以上人均未记录酒精消费量(以纯酒精升计)及95%置信区间”(SA_0000001821_ARCHIVED)的国家级观测数据,时间跨度为2010年至2016年。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了46个非洲国家,总共有92行数据。数据集的模式包括指标代码、国家ISO3代码、WHO区域代码、年份、数值估计值、置信区间边界等字段。

This dataset contains country-level observations for the WHO GHO indicator "Alcohol, unrecorded per capita (15+) consumption (in litres of pure alcohol) with 95%CI" (SA_0000001821_ARCHIVED) across African nations, spanning 2010–2016. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 46 African nations with a total of 92 rows. The schema includes fields such as indicator code, country ISO3 code, WHO region code, year, numeric value estimate, confidence interval bounds, and more.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区15岁以上人口未记录的纯酒精人均消费量(升)及其95%置信区间。原始数据经过精心整理与清洗,以Parquet文件格式重新封装,并采用统一的模式结构。所有数值均直接取自原始的浮点精度字段`NumericValue`,而非显示字符串,确保了机器学习任务中数据的高精度与可靠性。置信区间上下限(`value_low`、`value_high`)亦被完整保留,为不确定性建模提供了基础。
使用方法
用户可通过HuggingFace的`datasets`库轻松加载该数据集,使用`load_dataset("electricsheepafrica/africa-who-alcohol-21archived")`即可获取训练集,并转换为Pandas DataFrame进行后续操作。针对特定分析需求,例如仅关注两国性别且全国水平的数据,可通过筛选`dim1`字段中后缀为`_BTSX`或为空的行来实现。此外,利用`country_iso3`字段可以提取特定国家(如肯尼亚)的时间序列数据,并按年份排序,从而支持纵向趋势分析与回归建模。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于近年整理发布,源自世界卫生组织全球卫生观察站(WHO GHO)的公开数据,聚焦非洲地区15岁以上人群未记录的人均纯酒精消费量(升),覆盖2010至2016年间46个非洲国家共92条观测记录。核心研究问题在于量化非洲大陆酒精消费中未被官方统计或无记录的部分,以弥补全球酒精消费数据中的区域空白。作为机器学习就绪的统一非洲数据仓库组成部分,该数据集为健康经济学、流行病学及公共政策研究提供了标准化、易获取的结构化数据,尤其有助于非洲国家酒精相关疾病负担的建模与干预效果评估。其影响力体现在为跨时空比较与跨国分析奠定数据基础,填补了非洲地区酒精消费高精度量化数据的匮乏。
当前挑战
该数据集面临的多重挑战包括:其一,领域问题层面,未记录酒精消费本身具有隐蔽性和统计难度,易导致低估实际消费量,从而影响酒精相关健康风险的精准建模;其二,构建过程中,数据源自WHO GHO的归档指标(ARCHIVE_DEC2019),仅包含2010—2016年间有限观测,时间跨度短且样本量稀少(n<1K),难以支撑时序分析与机器学习模型训练;其三,维度复杂性体现在按性别、居住地区等多层次分层后,每行代表独立的国别-年份-维度组合,但缺乏统一聚合标准,为模型设计增加难度;其四,置信区间缺失值(value_low, value_high)不完整,进一步制约了不确定性量化研究的开展。
常用场景
经典使用场景
该数据集聚焦非洲大陆46个国家在2010至2016年间未记录的15岁以上人均酒精消费量,以纯酒精升数为计量单位,并附有95%置信区间。其经典使用场景涵盖时间序列分析与面板数据建模,研究者可借此追踪非洲各国酒精消费的演变趋势,或构建回归模型以揭示社会经济、政策环境与未记录酒精消费之间的潜在关联。由于数据来源自世界卫生组织全球卫生观察站的标准化接口,并经过Parquet格式重新封装,该数据集尤为适合机器学习流水线中的表格分类与回归任务,为非洲地区酒精相关健康研究提供了精准、可复用的定量基础。
解决学术问题
在学术研究中,该数据集为解决非洲地区未记录酒精消费的量化难题提供了关键支撑。传统酒精监测往往依赖正规销售记录或调查数据,难以捕捉非法酿造、跨境走私或家庭自酿等非正式渠道的消费行为。该数据集通过WHO官方统计口径,以点估计与置信区间形式呈现未记录酒精的人均消费量,帮助学者克服数据零散与口径不一的问题。其发布推动了公共卫生领域对酒精负担评估的精细化研究,尤其在探讨未记录酒精与肝硬化、交通事故、暴力伤害等健康后果的计量经济学模型时,成为不可或缺的核心观测变量,提升了对非洲特殊社会情境下酒精政策影响的实证理解。
实际应用
实际应用中,该数据集为国际组织、非洲各国卫生部门及非政府机构制定酒精控制政策提供了数据驱动的决策依据。通过调用公开的Python接口加载数据,公共卫生研究者能够快速筛选特定国家或人群亚组的时间序列,监测未记录酒精消费的异常波动,从而预警潜在的健康风险。同时,该数据集可与WHO全球卫生观察站的其他指标(如酒精相关死亡率、医疗资源配置)进行交叉分析,辅助评估税收上调、广告禁令或销售限时等干预措施的实际效果,推动循证健康政策在非洲地区的落地与优化。
数据集最近研究
最新研究方向
该数据集聚焦于非洲大陆15岁以上人口未记录的人均酒精消费量(以纯酒精升数计)及其95%置信区间,涵盖了2010至2016年间46个非洲国家的观测数据。在全球公共卫生领域,酒精消费与多种非传染性疾病及社会问题密切相关,而非洲地区由于监管体系薄弱、非正规经济盛行,未记录酒精消费的监测与分析尤为关键。当前前沿研究正利用此类数据构建机器学习预测模型,以评估隐性酒精消费对疾病负担的潜在影响,例如结合WHO全球健康观察站的时空数据,探索酒精消费模式与HIV/AIDS、肝病等健康指标的关联,为区域健康政策制定提供数据驱动的循证依据。该数据集的标准化parquet格式和一致性架构,极大便利了跨国家、跨年度的纵向研究与模型训练,推动了非洲健康数据科学的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作