five

electricsheepafrica/africa-pepfar-cameroon-2015

收藏
Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-pepfar-cameroon-2015
下载链接
链接失效反馈
官方服务:
资源简介:
PEPFAR Cameroon 2015数据集是关于喀麦隆2015年PEPFAR(美国总统艾滋病紧急救援计划)结果的表格记录。数据集包含194行和23列(20个数值型,3个分类型),分为155个训练样本和38个测试样本。数据涵盖了HIV检测、治疗和预防等多个公共卫生指标。数据集由Electric Sheep Africa从OpenAfrica获取并进行了清洗和标准化处理。数据的地理范围仅限于喀麦隆。需要注意的是,数据来源于Code for Africa,未经ESA独立验证,可能存在报告错误或定义不一致的问题。

annotations_creators: - 无注释 language_creators: - 公开采集 language: - 英语(English) license: 知识共享署名4.0国际许可协议(CC BY 4.0) multilinguality: - 单语言 size_categories: - 数据规模小于1000条(n<1K) source_datasets: - 原始数据集 task_categories: - 表格分类(tabular-classification) task_ids: [] tags: - 非洲 - 人道主义 - HDX(人道主义数据交换平台) - electric-sheep-africa - HIV(人类免疫缺陷病毒,艾滋病) - 公共卫生 - 喀麦隆 pretty_name: "PEPFAR(总统防治艾滋病紧急救援计划)喀麦隆2015" dataset_info: splits: - name: train num_examples: 155 - name: test num_examples: 38 # PEPFAR(总统防治艾滋病紧急救援计划)喀麦隆2015数据集 **发布方:Code for Africa(非洲代码组织) · 来源:[OpenAfrica](https://open.africa/dataset/pepfar-cameroon-2015) · 许可证:`CC BY` · 最后更新:2023-11-24** --- ## 摘要 本数据集收录喀麦隆2015年PEPFAR相关统计结果。 数据集每行均为标准化表格记录,最后更新于OpenAfrica平台的时间为2023年11月24日。地理覆盖范围:**喀麦隆**。 *本数据集已由[Electric Sheep Africa(电动绵羊非洲团队)](https://huggingface.co/electricsheepafrica)整理为适配机器学习的Parquet格式。* --- ## 数据集特征 | | | |---|---| | **领域** | 公共卫生 | | **观测单元** | 单条表格记录 | | **总记录数** | 194 | | **列数** | 23列(20列数值型,3列分类型,0列日期时间型) | | **训练集划分** | 155条记录 | | **测试集划分** | 38条记录 | | **地理覆盖范围** | 喀麦隆 | | **发布方** | Code for Africa(非洲代码组织) | | **OpenAfrica平台最后更新时间** | 2023-11-24 | --- ## 变量说明 **艾滋病毒检测与母婴传播预防类指标** — `pmtct_ctx`(取值范围0.0–489.0)、`tx_new`(取值范围0.0–1560.0)、`tx_curr`(取值范围0.0–13395.0)、`tx_ret_num`(取值范围0.0–480.0)、`tx_ret_den`(取值范围0.0–564.0)。 **标识符与元数据类** — `pmtct_eid`(取值范围0.0–573.0)、`pmtct_eid_pos`(取值范围0.0–113.0)、`esa_source`(HDX,人道主义数据交换平台)、`esa_processed`(处理日期:2026-04-27)。 **其他变量** — `cameroon`(取值为Abo、恩冈代雷市区、Mifi)、`htc_tst`(取值范围0.0–21169.0)、`htc_tst_pos`(取值范围0.0–1725.0)、`pmtct_stat`(取值范围0.0–14238.0)、`pmtct_stat_pos`(取值范围0.0–1148.0)及另外9个变量。 --- ## 快速上手 python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-pepfar-cameroon-2015") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() --- ## 数据结构 | 列名 | 数据类型 | 空值占比 | 取值范围/示例值 | |---|---|---|---| | `cameroon` | 字符型(object) | 0.0% | Abo、恩冈代雷市区、Mifi | | `htc_tst` | 整型(int64) | 0.0% | 0.0 – 21169.0(均值1740.1649) | | `htc_tst_pos` | 整型(int64) | 0.0% | 0.0 – 1725.0(均值100.5) | | `pmtct_stat` | 整型(int64) | 0.0% | 0.0 – 14238.0(均值1330.134) | | `pmtct_stat_pos` | 整型(int64) | 0.0% | 0.0 – 1148.0(均值87.8711) | | `pmtct_arv` | 整型(int64) | 0.0% | 0.0 – 1129.0(均值73.4948) | | `pmtct_eid` | 整型(int64) | 0.0% | 0.0 – 573.0(均值27.6546) | | `pmtct_eid_pos` | 整型(int64) | 0.0% | 0.0 – 113.0(均值2.3608) | | `pmtct_ctx` | 整型(int64) | 0.0% | 0.0 – 489.0(均值26.5515) | | `care_new` | 整型(int64) | 0.0% | 0.0 – 1699.0(均值99.8196) | | `tx_new` | 整型(int64) | 0.0% | 0.0 – 1560.0(均值82.299) | | `care_curr` | 整型(int64) | 0.0% | 0.0 – 13440.0(均值637.1392) | | `tb_screen` | 整型(int64) | 0.0% | 0.0 – 1971.0(均值102.134) | | `tx_curr` | 整型(int64) | 0.0% | 0.0 – 13395.0(均值633.1031) | | `tb_art` | 整型(int64) | 0.0% | 0.0 – 261.0(均值1.3454) | | `tx_ret_num` | 整型(int64) | 0.0% | 0.0 – 480.0(均值10.1649) | | `tx_ret_den` | 整型(int64) | 0.0% | 0.0 – 564.0(均值14.5619) | | `vmmc_circ` | 整型(int64) | 0.0% | 0.0 – 0.0(均值0.0) | | `ovc_serv` | 整型(int64) | 0.0% | 0.0 – 2315.0(均值37.6959) | | `pp_prev` | 整型(int64) | 0.0% | 0.0 – 86969.0(均值536.768) | | `kp_prev` | 整型(int64) | 0.0% | 0.0 – 3597.0(均值91.0) | | `esa_source` | 字符型(object) | 0.0% | HDX(人道主义数据交换平台) | | `esa_processed` | 字符型(object) | 0.0% | 2026-04-27 | --- ## 数值型变量统计摘要 | 列名 | 最小值 | 最大值 | 均值 | 中位数 | |---|---|---|---|---| | `htc_tst` | 0.0 | 21169.0 | 1740.1649 | 0.0 | | `htc_tst_pos` | 0.0 | 1725.0 | 100.5 | 0.0 | | `pmtct_stat` | 0.0 | 14238.0 | 1330.134 | 0.0 | | `pmtct_stat_pos` | 0.0 | 1148.0 | 87.8711 | 0.0 | | `pmtct_arv` | 0.0 | 1129.0 | 73.4948 | 0.0 | | `pmtct_eid` | 0.0 | 573.0 | 27.6546 | 0.0 | | `pmtct_eid_pos` | 0.0 | 113.0 | 2.3608 | 0.0 | | `pmtct_ctx` | 0.0 | 489.0 | 26.5515 | 0.0 | | `care_new` | 0.0 | 1699.0 | 99.8196 | 0.0 | | `tx_new` | 0.0 | 1560.0 | 82.299 | 0.0 | | `care_curr` | 0.0 | 13440.0 | 637.1392 | 0.0 | | `tb_screen` | 0.0 | 1971.0 | 102.134 | 0.0 | | `tx_curr` | 0.0 | 13395.0 | 633.1031 | 0.0 | | `tb_art` | 0.0 | 261.0 | 1.3454 | 0.0 | | `tx_ret_num` | 0.0 | 480.0 | 10.1649 | 0.0 | --- ## 数据整理流程 原始数据通过CKAN API从OpenAfrica平台下载,并转换为Parquet格式。对列名进行小写转换与蛇形命名法标准化处理。将常见缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。移除2列缺失值占比超过80%的字段:`unnamed_21`、`data_pulled_on`。采用固定随机种子(42)将数据集按80/20比例划分为训练集与测试集,并保存为Snappy压缩格式的Parquet文件。 --- ## 数据集局限性 - 本数据源自Code for Africa(非洲代码组织),未经过Electric Sheep Africa(电动绵羊非洲团队)的独立验证。 - 自动化清洗流程无法修正原始数据采集阶段的错报、定义不一致或抽样偏差问题。 - 请查阅[原始HDX数据集页面](https://open.africa/dataset/pepfar-cameroon-2015)获取发布方提供的方法说明与注意事项。 --- ## 引用格式 bibtex @dataset{openafrica_africa_pepfar_cameroon_2015, title = {PEPFAR Cameroon 2015}, author = {Code for Africa}, year = {2023}, url = {https://open.africa/dataset/pepfar-cameroon-2015}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } --- *[Electric Sheep Africa(电动绵羊非洲团队)](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作