africa-ports-congo-dem-rep
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-ports-congo-dem-rep
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含刚果民主共和国港口的每日港口活动数据和货物运输量估计。数据集以国家层面的聚合数据形式呈现,每条记录代表一个国家的汇总数据。数据集包含15,984行和31列(24个数值型,6个类别型),已划分为训练集(12,787行)和测试集(3,196行)。数据涵盖2019年至2026年的时间范围,包含港口呼叫次数、进出口货物量(以公吨计)等多种指标。数据集适用于表格分类和回归任务,特别关注人道主义和发展数据领域。数据来源于HDX平台,由PortWatch发布,并由Electric Sheep Africa整理为适合机器学习的Parquet格式。数据集包含地理信息(如年份、日期、国家代码)、港口标识信息(如港口ID、名称)以及各种货物类型的进出口量统计。需要注意的是,数据来源于PortWatch,未经ESA独立验证,可能存在报告错误或定义不一致的情况。
创建时间:
2026-04-26
原始信息汇总
数据集概述:刚果民主共和国每日港口活动与航运估计数据
基本信息
- 数据集名称:Democratic Republic of the Congo: Daily Port Activity Data and Shipment Estimates
- 发布者:PortWatch
- 数据来源:HDX
- 许可证:hdx-other
- 语言:英语(单语)
- 地理范围:刚果民主共和国(COD)
- HDX最后更新日期:2026-04-21
- 领域:人道主义与发展数据
数据集规模与划分
| 项目 | 数值 |
|---|---|
| 总行数 | 15,984 |
| 列数 | 31(24个数值型,6个类别型,0个日期时间型) |
| 训练集 | 12,787 行 |
| 测试集 | 3,196 行 |
| 数据划分比例 | 80/20(固定随机种子42) |
数据集内容
摘要
该数据集包含刚果民主共和国港口的每日港口停靠次数、进口航运量估计(公吨)和出口航运量估计(公吨)。每一行代表国家级汇总数据。
变量分类
地理变量
year:年份(范围 2019.0–2026.0)day:日期(范围 1.0–31.0)country:国家(Democratic Republic of the Congo)iso3:国家代码(COD)portcalls_dry_bulk:干散货停靠次数(范围 0.0–3.0)等
时间变量
date:日期month:月份(范围 1.0–12.0)
标识/元数据变量
portid:港口ID(如 port717, port2120, fso72)portname:港口名称(如 Matadi, Banana,刚果民主共和国近海石油终端1)esa_source:数据来源(HDX)esa_processed:处理日期(2026-04-28)
其他变量
- 港口停靠类别:container(集装箱)、general_cargo(普通货物)、roro(滚装船)、tanker(油轮)、cargo(货物)
- 进口/出口航运量:container、dry_bulk(干散货)、general_cargo(普通货物)、roro(滚装船)、tanker(油轮)、cargo(货物)
portcalls:总停靠次数(范围 0.0–6.0)import:总进口量(范围 0.0–64448.0 公吨)export:总出口量
数据预处理与限制
数据处理流程
- 通过CKAN API从HDX下载原始数据并转换为Parquet格式
- 列名转换为小写和下划线命名规范
- 将常见缺失值标记(如 N/A, null, none, -, unknown, no data, #N/A)统一为 NaN
- 1个字符串列根据解析成功率(>85%阈值)转换为数值或日期时间类型
- 数据集以Snappy压缩的Parquet格式保存
限制说明
- 数据源自PortWatch,未经Electric Sheep Africa独立验证
- 自动化清洗无法纠正原始数据中的误报、定义不一致或采样偏差
- 建议参考原始HDX数据集页面获取发布者的方法论说明和注意事项
引用信息
bibtex @dataset{hdx_africa_ports_congo_dem_rep, title = {Democratic Republic of the Congo: Daily Port Activity Data and Shipment Estimates}, author = {PortWatch}, year = {2026}, url = {https://data.humdata.org/dataset/democratic-republic-of-the-congo-daily-port-activity-data-and-shipment-estimates}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
该数据集源自PortWatch发布的刚果民主共和国港口每日活动数据,经由人道主义数据交换(HDX)平台获取原始资料。数据通过CKAN API下载后,由Electric Sheep Africa团队进行系统性清洗与重构:列名统一转换为小写蛇形命名法,缺失值标记(如N/A、null等)被标准化为NaN,并依据解析成功率超过85%的阈值将字符串列转换为数值或日期时间类型。最终数据以Snappy压缩的Parquet格式存储,并采用固定随机种子(42)划分为80%的训练集与20%的测试集,形成12,787条训练样本和3,196条测试样本的机器学习就绪数据集。
特点
该数据集聚焦于人道主义与开发领域,以国家层面的聚合观测为单位,涵盖刚果民主共和国港口活动的31个变量,包括24个数值型与6个类别型特征。数据时间跨度从2019年至2026年,详细记录了不同货船类型(如集装箱船、干散货船、油轮等)的每日靠港次数,以及进口与出口货物的估算吨位(如集装箱、干散货、杂货等类别)。其独特之处在于融合了地理标识(港口ID与名称)、时间维度(年、月、日)与多维货运指标,为分析内陆国刚果民主共和国的贸易流动提供了高分辨率、多层次的量化视角。
使用方法
该数据集可通过Hugging Face的datasets库便捷加载,用户仅需一行代码即可获取训练与测试分割数据,并支持直接转换为Pandas DataFrame进行探索性分析。适用于表格分类与回归任务,例如基于时间与港口特征预测货物进出口量、分析季节性贸易模式或构建港口效能评估模型。数据集的标准化列名与缺失值处理降低了预处理门槛,研究者可直接将其用于机器学习管线,或结合额外地理与经济数据进行多模态扩展分析。建议参考原始HDX数据集页面的方法论说明,以理解数据采集的局限性。
背景与挑战
背景概述
刚果民主共和国作为非洲中部的重要国家,其港口系统是区域贸易与 Humanitarian 援助的关键枢纽。然而,长期以来,该国港口活动数据的碎片化与不透明性严重制约了物流效率评估、经济趋势预测及灾害响应规划。为弥合这一数据鸿沟,PortWatch 机构依托人道主义数据交换平台(HDX)搜集并发布了《刚果民主共和国:每日港口活动数据与货运量估算》数据集,后由 Electric Sheep Africa 于 2026 年整理为机器学习就绪格式。该数据集涵盖了2019至2026年间刚果主要港口的日度船舶靠泊次数、进口与出口货运量估计,包含近1.6万条记录及31个特征字段。其发布为商贸分析、人道主义物流优化及经济建模提供了前所未有的高分辨率数据基础,在非洲航运研究领域树立了范例。
当前挑战
该数据集所面向的核心挑战在于解决非洲地区港口数据稀疏与口径不一的领域问题——刚果民主共和国作为内陆与沿海贸易通道,其港口数据长期缺失标准化统计,导致供应链中断风险难以预警、人道主义物资调配缺乏量化支撑。在构建过程中,数据清洗遭遇多重障碍:原始数据来源PortWatch的自动化采集可能引入误报与定义偏差;字段中隐含的大量零值反映了港口活动记录的不稳定性,例如滚装船(roro)与油轮(tanker)的靠泊次数极为稀少,给机器学习模型的特征学习带来稀疏性难题。此外,数据的时间跨度虽覆盖七年,但部分港口的观测频次不均,且出口货运量字段存在缺失,进一步增加了回归预测任务的复杂性。
常用场景
经典使用场景
在人道主义救援与发展研究领域,刚果民主共和国的港口活动数据为分析内陆国家的贸易物流提供了关键视角。该数据集记录了马塔迪、巴纳纳等主要港口的每日船舶停靠频次,以及按货物类型(如集装箱、干散货、液货等)细分的进出口估算吨位,时间跨度覆盖2019年至2026年。研究者和数据分析师常将其用于构建时间序列预测模型,以洞察港口吞吐量的波动规律,或结合经济指标探讨港口效率对供应链韧性的影响。
衍生相关工作
基于该数据,已有学者将其与卫星夜间灯光数据或移动通信信令数据融合,构建更全面的经济活动代理指标。部分研究将港口船舶类型分布与全球航运数据库关联,揭示了区域海运网络的结构性特征。此外,Electric Sheep Africa团队将该数据集转化为ML就绪的Parquet格式,推动了机器学习方法在非洲港口效率预测和异常事件检测中的应用,催生了面向发展中国家的时序分类与回归基准测试集。
数据集最近研究
最新研究方向
该数据集聚焦于刚果民主共和国港口日常动态与货运估算的量化分析,为非洲人道主义与贸易物流领域的前沿研究提供了关键支撑。在智能航运与供应链韧性成为全球热点的当下,研究者借助该数据可深入剖析港口拥堵模式、大宗商品流动态势及区域贸易失衡现象,尤其结合2019至2026年间干散货、集装箱及油轮等多类装卸指标的时序特征,能够构建预测性模型以优化内陆与海岸间的物资调配。其通过机器可读的Parquet格式整合,极大降低了非结构化原始数据的应用门槛,使得从港口活动微观波动中提炼宏观发展启示成为可能,对气候变化影响下的非洲港口韧性评估及后疫情时代贸易网络修复具有重要的实证意义。
以上内容由遇见数据集搜集并总结生成



