five

africa-malaria-mozambique

收藏
Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-malaria-mozambique
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来自2017年在莫桑比克Mopeia进行的NgenIRS项目横断面疟疾流行调查。数据包含家庭疟疾控制干预措施、健康寻求行为和疟疾护理成本等信息。数据集以表格形式记录,共302行,分为241行的训练集和60行的测试集。包含6个分类变量,无数值变量。数据经过清洗和标准化处理,缺失值统一为NaN,并删除了70个完全重复的行。数据集适用于表格分类和回归任务,特别适用于公共卫生领域的研究。数据由Private Sector for Resilience and Collaboration发布,Electric Sheep Africa整理为机器学习可用格式。需要注意的是,部分列存在较高比例的缺失值,使用时应谨慎。
创建时间:
2026-04-26
原始信息汇总

数据集概述:NgenIRS Mopeia 2017 年横断面疟疾调查

基本信息

  • 数据集名称:NgenIRS Mopeia cross-sectional survey 2017
  • 发布方:Private Sector for Resilience and Collaboration
  • 来源HDX
  • 许可证hdx-other
  • 最后更新:2025-04-10
  • 语言:英语
  • 地理范围:莫桑比克(MOZ)

数据集描述

该数据集来源于 NgenIRS 项目于 2017 年在莫桑比克 Mopeia 地区开展的横断面疟疾患病率调查,包含家庭疟疾控制干预措施、求医行为及疟疾护理费用等信息。

数据集特征

属性 说明
领域 公共卫生
观测单位 表格记录
总行数 302
列数 6(0 列数值型,6 列类别型,0 列时间型)
训练集 241 行
测试集 60 行

数据列结构

列名 类型 缺失率 示例值
type object 50.7% integer, text, select_one yes_dn
variables object 51.7% deviceid, add_bill_specify, ape_cons_cost
label object 51.7% Por favor, escreva o número de horas diárias perdidas para cada actividade durante o episódio da malária, Especifique, IMEI do Tablet usado para colheita de dados
choices object 25.5% 1 - Sim, 1 - Energia electrica, 1 - Menos de uma vez por semana
esa_source object 0.0% HDX
esa_processed object 0.0% 2026-04-29

数据处理说明

  • 原始数据通过 CKAN API 从 HDX 下载并转换为 Parquet 格式
  • 列名统一为小写 snake_case 格式
  • 常见缺失值标记统一为 NaN
  • 移除了 70 行完全重复的数据
  • 按 80/20 比例随机切分为训练集和测试集(固定随机种子 42)
  • 使用 Snappy 压缩的 Parquet 格式保存

局限性

  • 数据来源未经独立验证
  • 自动清洗无法纠正原始数据中的误报、定义不一致或采样偏差
  • 以下列缺失率超过 20%,在建模中需谨慎使用:typevariableslabelchoices

引用格式

bibtex @dataset{hdx_africa_malaria_mozambique, title = {NgenIRS Mopeia cross-sectional survey 2017}, author = {Private Sector for Resilience and Collaboration}, year = {2025}, url = {https://data.humdata.org/dataset/ngenirs-mopeia-cross-sectional-survey-2017}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自2017年在莫桑比克莫佩亚地区开展的NgenIRS项目横断面疟疾流行率调查,由私营部门韧性与协作机构发布,并通过人道主义数据交换平台(HDX)获取原始表格数据。Electric Sheep Africa团队利用CKAN API下载原始数据后,将其转换为Parquet格式,并将列名统一转换为小写蛇形命名法,标准化了常见的缺失值标记(如N/A、null等)为NaN。此外,剔除了70条完全重复的行,最终以固定随机种子(42)按80/20比例划分为训练集(241条)和测试集(60条),并保存为Snappy压缩的Parquet文件,确保了数据集的机器学习就绪状态。
使用方法
用户可通过Hugging Face的datasets库轻松加载该数据集,只需执行`load_dataset("electricsheepafrica/africa-malaria-mozambique")`即可获取训练集和测试集。加载后,可调用to_pandas()方法将数据转换为Pandas DataFrame进行后续分析。由于数据集已经过清洗和标准化,用户可直接用于分类或回归任务的模型训练,但需注意缺失值较多的列,并在预处理中考虑填充或剔除策略。此外,建议参考原始HDX数据集页面了解发布者的方法论注释,以规避可能的采样偏差或定义不一致问题。
背景与挑战
背景概述
疟疾作为非洲地区长期面临的重大公共卫生挑战,对撒哈拉以南非洲国家的社会经济与人口健康构成了深远影响。莫桑比克位于非洲东南部,是全球疟疾高发国家之一,其疾病负担尤以农村地区为甚。在此背景下,由Private Sector for Resilience and Collaboration主导、依托人道主义数据交换平台HDX发布的NgenIRS Mopeia横断面调查数据集(africa-malaria-mozambique)应运而生。该数据集收集于2017年,聚焦莫桑比克莫佩亚地区的疟疾患病率、家庭干预措施、求医行为与治疗成本等关键信息,为揭示该区域疟疾传播动态和干预策略效果提供了宝贵的第一手资料。2025年经Electric Sheep Africa整理并转化为机器学习友好格式,极大提升了数据可获取性与复用性,对于推动数据驱动的疟疾防控研究、优化资源分配具有显著参考价值。
当前挑战
该数据集所解决的领域核心挑战在于将传统的流行病学调查数据转化为可用于机器学习的结构化数据,从而支持对疟疾传播模式、干预效果及成本效益的定量分析。然而,构建过程中面临多重困难:首先,原始数据来源于实地调查,存在较高的缺失率——如type、variables、label、choices四列缺失值均超过20%,极大限制了模型的训练质量与预测稳定性。其次,数据清洗过程中移除了70条重复记录,说明原始采集环节存在冗余与不一致问题。此外,数据集仅覆盖单个地区2017年的横截面信息,样本量不足300,难以捕捉疟疾传播的时空异质性与长期趋势,且缺乏独立的外部验证,使其在泛化能力与因果推断层面面临显著局限。
常用场景
经典使用场景
该数据集源自2017年在莫桑比克莫佩亚开展的NgenIRS项目横断面疟疾患病率调查,收录了241条训练样本与60条测试样本,核心围绕家庭层面疟疾干预措施、求医行为及疾病经济负担等结构化信息。经典使用场景聚焦于利用表格分类与回归任务,建模疟疾患病风险与社会经济、行为变量之间的关联,例如通过家庭防护措施类型、治疗费用等特征预测疟疾感染概率,或估算疾病造成的劳动时间损失。数据集的简洁变量设计使其成为检验机器学习算法在处理高缺失率、多分类别特征时的稳健性的理想基准,尤其适合探索公共卫生领域中稀疏调查数据的预测建模策略。
解决学术问题
该数据集直击疟疾流行病学中数据稀疏性与多源异构性所带来的建模挑战,解决了如何从有限样本中提取家庭干预措施与患病风险之间可靠信号的问题。在学术意义上,它为验证成本敏感学习、缺失值插补及类别不平衡处理等算法在真实卫生调查场景下的效能提供了标准测试床,推动了对低收入地区疾病负担精细化估算方法的发展。数据集强调结构化表格数据的前处理流程,促使研究者关注数据质量对模型泛化能力的影响,从而提升了疟疾防控策略定量评估的可靠性。
实际应用
在实际应用中,该数据集可支撑公共卫生决策者与救援组织在资源有限环境下优化疟疾干预资源的分配,例如依据家庭防护覆盖率与求医成本模式,识别高优先级干预区域。它可用于训练预测模型,辅助医疗系统评估不同防控策略的经济效益,指导蚊帐分发、药物补贴等项目的精准投放。此外,数据集整理的标准化流程便于其他撒哈拉以南非洲国家复制类似调查,推动了基于数据的疟疾监测系统建设,加速了从原始问卷数据到可操作洞察的转化。
数据集最近研究
最新研究方向
在全球公共卫生领域,疟疾防控始终是撒哈拉以南非洲地区的核心挑战。莫桑比克莫佩亚2017年NgenIRS横断面调查数据集,作为一项聚焦于家庭疟疾干预措施、就医行为及疾病经济负担的微观数据,正成为机器学习辅助流行病学建模的前沿资源。当前研究热点倾向于利用该表格数据训练分类与回归模型,以预测疟疾传播风险并评估干预策略的成本效益。此数据集与“消除疟疾”全球倡议紧密关联,尤其在数字化健康监测和精准公共卫生决策中扮演关键角色,其整理为标准化机器学习格式更推动了中低收入国家循证干预的可复现性研究,对优化有限卫生资源分配具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作