africa-aid-flows-congo-dem-rep
收藏Hugging Face2026-04-24 更新2026-04-25 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-aid-flows-congo-dem-rep
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含刚果民主共和国红十字会分支机构的位置和结构信息,以表格形式记录。数据集由美国红十字会(非活跃状态)发布,来源于人道主义数据交换平台(HDX),最后更新于2025年2月6日。数据经过Electric Sheep Africa整理为适合机器学习的Parquet格式,包含164条记录,分为131条训练数据和32条测试数据。数据集包含2个分类变量列(esa_source和esa_processed),无数值型或日期时间型列。该数据集适用于表格分类和回归任务,主要用于人道主义和发展领域的研究与应用。数据覆盖范围为刚果民主共和国(COD)。数据集存在一定局限性,包括数据来源未经独立验证、可能存在报告错误或定义不一致等问题。
创建时间:
2026-04-22
原始信息汇总
数据集概述:DRC Croix Rouge (Red Cross) Branch Locations
- 数据集名称:DRC Croix Rouge (Red Cross) Branch Locations
- 数据集地址:https://huggingface.co/datasets/electricsheepafrica/africa-aid-flows-congo-dem-rep
- 发布者:American Red Cross(已不活跃)
- 数据来源:HDX
- 许可证:odbl(hdx-odc-odbl)
- 最后更新日期:2025-02-06
数据集简介
该数据集包含刚果民主共和国(DRC)红十字会全国分会的所在地、组织结构、分支等信息。每个数据行代表一条表格记录。地理范围限定为 COD。
数据集特征
| 属性 | 值 |
|---|---|
| 领域 | 人道主义与发展数据 |
| 观察单位 | 表格记录 |
| 总行数 | 164 |
| 列数 | 2(0 个数值型,2 个分类型,0 个日期时间型) |
| 训练集 | 131 行 |
| 测试集 | 32 行 |
| 地理范围 | COD |
| 发布者 | American Red Cross(已不活跃) |
| HDX 最后更新 | 2025-02-06 |
变量说明
- 标识/元数据列:
esa_source:数据来源(值为 "HDX")esa_processed:处理日期(值为 "2026-04-24")
数据模式
| 列名 | 类型 | 空值比例 | 范围/示例值 |
|---|---|---|---|
esa_source |
object | 0.0% | HDX |
esa_processed |
object | 0.0% | 2026-04-24 |
数值摘要
无数值列。
数据整理说明
- 原始数据通过 CKAN API 从 HDX 下载,并转换为 Parquet 格式。
- 列名转换为小写并标准化为蛇形命名法(snake_case)。
- 常见缺失值标记(如 N/A、null、none、-、unknown、no data、#N/A)统一替换为
NaN。 - 删除了 1 个缺失值超过 80% 的列:
nom_code_presence_crrdc_entrepots_crrdc_type_territoire_province。 - 使用固定随机种子(42)将数据集按 80/20 比例划分为训练集和测试集,并保存为 Snappy 压缩的 Parquet 格式。
局限性
- 数据来源于已不活跃的 American Red Cross,未经 ESA 独立验证。
- 自动清洗无法纠正原始收集中的误报、定义不一致或抽样偏差。
- 建议参考原始 HDX 数据集页面了解发布者的方法说明和注意事项。
引用格式
bibtex @dataset{hdx_africa_aid_flows_congo_dem_rep, title = {DRC Croix Rouge (Red Cross) Branch Locations}, author = {American Red Cross (inactive)}, year = {2025}, url = {https://data.humdata.org/dataset/national-society}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
该数据集源自美国红十字会(已停运)在HDX平台发布的刚果民主共和国国家社会数据,包含红十字会分支机构的区位、结构与类型等属性信息。数据经Electric Sheep Africa团队通过CKAN API从HDX原始源下载,经过去重、列名标准化为snake_case、统一缺失值标记为NaN等清洗流程,并移除缺失率超过80%的列(如`nom_code_presence_crrdc_entrepots_crrdc_type_territoire_province`)。最终以固定随机种子(42)按80/20比例划分为训练集(131条)和测试集(32条),保存为Snappy压缩的Parquet格式,便于机器学习流水线直接调用。
使用方法
用户可通过HuggingFace `datasets`库直接加载,调用`load_dataset("electricsheepafrica/africa-aid-flows-congo-dem-rep")`即可获得`train`与`test`两个预分割子集,并支持通过`.to_pandas()`方法转换为Pandas DataFrame进行进一步分析。该数据集适用于表格分类与回归任务,例如基于区位特征预测分支机构类型或分布密度。由于数据列仅包含元信息字段,用户在实际使用中需结合外部特征或地理编码信息进行建模,亦可作为合并其他人道主义数据源的枢纽数据集。
背景与挑战
背景概述
在人道主义援助与发展的数据领域,精确的地理与社会信息对于资源调配和灾后响应至关重要。该数据集由美国红十字会(已停用)于2025年创建,后经Electric Sheep Africa团队整理并托管于HuggingFace平台,聚焦刚果民主共和国(DRC)红十字会分支机构的分布与结构信息。其核心研究问题在于如何系统性地收录地方分会、设施位置等制表数据,以支持人道主义行动中的精准决策与地理分析。尽管数据规模较小(仅163条记录),但因其来源可靠且面向非洲人道主义场景,为后续建模与机器学习的应用提供了基础性参考,尤其在非洲大陆的援助流分析中具有潜在影响力。
当前挑战
该数据集所面临的挑战具有双重维度。从领域问题来看,人道主义援助数据常因来源多元、标准不统一而存在整合难题,例如原数据中缺失值的处理(如移除缺失比率超80%的列)虽经自动化清理,却难以纠正原始采集中的偏误或定义差异。从构建过程而言,明确挑战包括:1)数据源为停用机构,缺乏持续更新与独立验证,时效性受限;2)仅含2个类别变量,无数值或时间维度,限制了复杂建模的可能性;3)地理范围仅限于刚果民主共和国,样本量偏小(163行),可能无法反映区域全貌,同时自动化清洗虽统一了缺失值标记,但无法弥合原始数据本身存在的报告不一致性。
常用场景
经典使用场景
在人道主义援助与灾后响应研究领域,刚果(金)红十字会分支位置数据集作为地理空间表格数据的典范,常被用于训练分类与回归模型以预测援助站点的空间分布规律。研究者利用该数据集131条训练样本中编码的分支机构类型、地理位置等结构化特征,能够构建基于稀疏地理信息的目标定位系统,为非洲地区非政府组织(NGO)网络布局优化提供数据驱动的决策支持。
解决学术问题
该数据集有效填补了非洲中部脆弱国家人道主义基础设施空间数据库的空白,解决了因战乱与数据治理缺失导致的救援站点分布认知盲区问题。通过标准化处理缺失值与地理编码,它使得学术界能够开展关于人道主义资源可达性、微型救援网络弹性评估等定量研究,其意义在于推动了低信息化地区公共设施数据集的机器学习适配范式,为后续跨国人道主义数据互操作标准的确立奠定了实证基础。
实际应用
在实际应用中,该数据集可服务于国际红十字运动及非洲发展银行的资源调度系统,通过历史分支机构位置数据训练选址优化模型,辅助人道主义组织在刚果(金)等冲突频发区域规划新站点。例如,结合实时冲突事件流与人口迁徙数据,该数据集能够支撑红色警报系统的应急通道动态规划,显著提升紧急医疗物资与救灾人员的前沿部署效率。
数据集最近研究
最新研究方向
在非洲人道主义援助与灾害响应领域,该数据集聚焦于刚果民主共和国红十字会分支机构的时空分布特征,为机器学习驱动的援助资源优化配置提供了可复用的结构化基础。其前沿研究旨在通过低成本、低资源标注的制表数据,训练分类与回归模型以预测人道物资需求热点,并与地理空间分析结合,评估冲突或自然灾难场景下分支网络的服务脆弱性。该数据集经标准化清洗与分裂,适配ML流水线,为非洲本土数据基础设施(如Electric Sheep Africa)支持下的开源人道数据分析生态注入了关键样本,推动了‘数据沙漠’地区基于证据的决策转型。
以上内容由遇见数据集搜集并总结生成



