electricsheepafrica/africa-pepfar-cameroon-2015
收藏Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-pepfar-cameroon-2015
下载链接
链接失效反馈官方服务:
资源简介:
PEPFAR Cameroon 2015数据集是关于喀麦隆2015年PEPFAR(美国总统艾滋病紧急救援计划)结果的表格记录。数据集包含194行和23列(20个数值型,3个分类型),分为155个训练样本和38个测试样本。数据涵盖了HIV检测、治疗和预防等多个公共卫生指标。数据集由Electric Sheep Africa从OpenAfrica获取并进行了清洗和标准化处理。数据的地理范围仅限于喀麦隆。需要注意的是,数据来源于Code for Africa,未经ESA独立验证,可能存在报告错误或定义不一致的问题。
annotations_creators:
- 无注释
language_creators:
- 公开采集
language:
- 英语(English)
license: 知识共享署名4.0国际许可协议(CC BY 4.0)
multilinguality:
- 单语言
size_categories:
- 数据规模小于1000条(n<1K)
source_datasets:
- 原始数据集
task_categories:
- 表格分类(tabular-classification)
task_ids: []
tags:
- 非洲
- 人道主义
- HDX(人道主义数据交换平台)
- electric-sheep-africa
- HIV(人类免疫缺陷病毒,艾滋病)
- 公共卫生
- 喀麦隆
pretty_name: "PEPFAR(总统防治艾滋病紧急救援计划)喀麦隆2015"
dataset_info:
splits:
- name: train
num_examples: 155
- name: test
num_examples: 38
# PEPFAR(总统防治艾滋病紧急救援计划)喀麦隆2015数据集
**发布方:Code for Africa(非洲代码组织) · 来源:[OpenAfrica](https://open.africa/dataset/pepfar-cameroon-2015) · 许可证:`CC BY` · 最后更新:2023-11-24**
---
## 摘要
本数据集收录喀麦隆2015年PEPFAR相关统计结果。
数据集每行均为标准化表格记录,最后更新于OpenAfrica平台的时间为2023年11月24日。地理覆盖范围:**喀麦隆**。
*本数据集已由[Electric Sheep Africa(电动绵羊非洲团队)](https://huggingface.co/electricsheepafrica)整理为适配机器学习的Parquet格式。*
---
## 数据集特征
| | |
|---|---|
| **领域** | 公共卫生 |
| **观测单元** | 单条表格记录 |
| **总记录数** | 194 |
| **列数** | 23列(20列数值型,3列分类型,0列日期时间型) |
| **训练集划分** | 155条记录 |
| **测试集划分** | 38条记录 |
| **地理覆盖范围** | 喀麦隆 |
| **发布方** | Code for Africa(非洲代码组织) |
| **OpenAfrica平台最后更新时间** | 2023-11-24 |
---
## 变量说明
**艾滋病毒检测与母婴传播预防类指标** — `pmtct_ctx`(取值范围0.0–489.0)、`tx_new`(取值范围0.0–1560.0)、`tx_curr`(取值范围0.0–13395.0)、`tx_ret_num`(取值范围0.0–480.0)、`tx_ret_den`(取值范围0.0–564.0)。
**标识符与元数据类** — `pmtct_eid`(取值范围0.0–573.0)、`pmtct_eid_pos`(取值范围0.0–113.0)、`esa_source`(HDX,人道主义数据交换平台)、`esa_processed`(处理日期:2026-04-27)。
**其他变量** — `cameroon`(取值为Abo、恩冈代雷市区、Mifi)、`htc_tst`(取值范围0.0–21169.0)、`htc_tst_pos`(取值范围0.0–1725.0)、`pmtct_stat`(取值范围0.0–14238.0)、`pmtct_stat_pos`(取值范围0.0–1148.0)及另外9个变量。
---
## 快速上手
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-pepfar-cameroon-2015")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
---
## 数据结构
| 列名 | 数据类型 | 空值占比 | 取值范围/示例值 |
|---|---|---|---|
| `cameroon` | 字符型(object) | 0.0% | Abo、恩冈代雷市区、Mifi |
| `htc_tst` | 整型(int64) | 0.0% | 0.0 – 21169.0(均值1740.1649) |
| `htc_tst_pos` | 整型(int64) | 0.0% | 0.0 – 1725.0(均值100.5) |
| `pmtct_stat` | 整型(int64) | 0.0% | 0.0 – 14238.0(均值1330.134) |
| `pmtct_stat_pos` | 整型(int64) | 0.0% | 0.0 – 1148.0(均值87.8711) |
| `pmtct_arv` | 整型(int64) | 0.0% | 0.0 – 1129.0(均值73.4948) |
| `pmtct_eid` | 整型(int64) | 0.0% | 0.0 – 573.0(均值27.6546) |
| `pmtct_eid_pos` | 整型(int64) | 0.0% | 0.0 – 113.0(均值2.3608) |
| `pmtct_ctx` | 整型(int64) | 0.0% | 0.0 – 489.0(均值26.5515) |
| `care_new` | 整型(int64) | 0.0% | 0.0 – 1699.0(均值99.8196) |
| `tx_new` | 整型(int64) | 0.0% | 0.0 – 1560.0(均值82.299) |
| `care_curr` | 整型(int64) | 0.0% | 0.0 – 13440.0(均值637.1392) |
| `tb_screen` | 整型(int64) | 0.0% | 0.0 – 1971.0(均值102.134) |
| `tx_curr` | 整型(int64) | 0.0% | 0.0 – 13395.0(均值633.1031) |
| `tb_art` | 整型(int64) | 0.0% | 0.0 – 261.0(均值1.3454) |
| `tx_ret_num` | 整型(int64) | 0.0% | 0.0 – 480.0(均值10.1649) |
| `tx_ret_den` | 整型(int64) | 0.0% | 0.0 – 564.0(均值14.5619) |
| `vmmc_circ` | 整型(int64) | 0.0% | 0.0 – 0.0(均值0.0) |
| `ovc_serv` | 整型(int64) | 0.0% | 0.0 – 2315.0(均值37.6959) |
| `pp_prev` | 整型(int64) | 0.0% | 0.0 – 86969.0(均值536.768) |
| `kp_prev` | 整型(int64) | 0.0% | 0.0 – 3597.0(均值91.0) |
| `esa_source` | 字符型(object) | 0.0% | HDX(人道主义数据交换平台) |
| `esa_processed` | 字符型(object) | 0.0% | 2026-04-27 |
---
## 数值型变量统计摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| `htc_tst` | 0.0 | 21169.0 | 1740.1649 | 0.0 |
| `htc_tst_pos` | 0.0 | 1725.0 | 100.5 | 0.0 |
| `pmtct_stat` | 0.0 | 14238.0 | 1330.134 | 0.0 |
| `pmtct_stat_pos` | 0.0 | 1148.0 | 87.8711 | 0.0 |
| `pmtct_arv` | 0.0 | 1129.0 | 73.4948 | 0.0 |
| `pmtct_eid` | 0.0 | 573.0 | 27.6546 | 0.0 |
| `pmtct_eid_pos` | 0.0 | 113.0 | 2.3608 | 0.0 |
| `pmtct_ctx` | 0.0 | 489.0 | 26.5515 | 0.0 |
| `care_new` | 0.0 | 1699.0 | 99.8196 | 0.0 |
| `tx_new` | 0.0 | 1560.0 | 82.299 | 0.0 |
| `care_curr` | 0.0 | 13440.0 | 637.1392 | 0.0 |
| `tb_screen` | 0.0 | 1971.0 | 102.134 | 0.0 |
| `tx_curr` | 0.0 | 13395.0 | 633.1031 | 0.0 |
| `tb_art` | 0.0 | 261.0 | 1.3454 | 0.0 |
| `tx_ret_num` | 0.0 | 480.0 | 10.1649 | 0.0 |
---
## 数据整理流程
原始数据通过CKAN API从OpenAfrica平台下载,并转换为Parquet格式。对列名进行小写转换与蛇形命名法标准化处理。将常见缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。移除2列缺失值占比超过80%的字段:`unnamed_21`、`data_pulled_on`。采用固定随机种子(42)将数据集按80/20比例划分为训练集与测试集,并保存为Snappy压缩格式的Parquet文件。
---
## 数据集局限性
- 本数据源自Code for Africa(非洲代码组织),未经过Electric Sheep Africa(电动绵羊非洲团队)的独立验证。
- 自动化清洗流程无法修正原始数据采集阶段的错报、定义不一致或抽样偏差问题。
- 请查阅[原始HDX数据集页面](https://open.africa/dataset/pepfar-cameroon-2015)获取发布方提供的方法说明与注意事项。
---
## 引用格式
bibtex
@dataset{openafrica_africa_pepfar_cameroon_2015,
title = {PEPFAR Cameroon 2015},
author = {Code for Africa},
year = {2023},
url = {https://open.africa/dataset/pepfar-cameroon-2015},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
---
*[Electric Sheep Africa(电动绵羊非洲团队)](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica



