africa-ports-sierra-leone
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-ports-sierra-leone
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为塞拉利昂:每日港口活动数据与货物运输估算,由PortWatch发布,来源于HDX平台,并由Electric Sheep Africa整理为适合机器学习的格式。数据集记录了塞拉利昂港口的每日到港次数、进港和出港货物量(以公吨计)的估算数据,每条记录代表国家层面的汇总数据。数据集包含2,650条记录,31个字段(24个数值型,6个类别型),已划分为2,120条训练数据和530条测试数据。主要字段包括日期信息(年、月、日)、港口标识与名称、国家代码、各类船只到港次数(如集装箱船、散货船等)、进出口货物量估算等。数据集适用于表格分类和回归任务,特别适合非洲贸易、港口活动分析等人道主义和发展领域的研究。数据覆盖时间为2019年至2026年,地理范围限定为塞拉利昂(SLE)。需要注意的是,数据来源于PortWatch,未经ESA独立验证,可能存在原始收集中的报告误差或定义不一致问题。
This dataset is named Sierra Leone: Daily Port Activity Data and Cargo Transport Estimates. Released by PortWatch, it is sourced from the HDX platform and formatted into machine-learning-ready structures by Electric Sheep Africa. This dataset records estimated daily port call counts, import and export cargo volumes (in metric tons) at Sierra Leonean ports, with each entry representing national-level aggregated data. The dataset contains 2,650 total records across 31 fields: 24 numerical fields and 6 categorical fields, and has been split into 2,120 training samples and 530 test samples. Key fields include date information (year, month, day), port identifiers and names, country codes, port call counts for various vessel types (e.g., container ships, bulk carriers, etc.), and estimated import/export cargo volumes, among others. This dataset is suitable for tabular classification and regression tasks, and is particularly well-suited for research in humanitarian and development fields such as African trade and port activity analysis. The dataset covers the period from 2019 to 2026, with a geographic scope limited to Sierra Leone (SLE). Notably, this data is sourced from PortWatch and has not been independently verified by ESA; report errors or inconsistent definitions may exist during the original data collection process.
创建时间:
2026-04-26
原始信息汇总
数据集概况
- 名称: Sierra Leone: Daily Port Activity Data and Shipment Estimates
- 发布方: PortWatch
- 来源: HDX
- 许可协议:
hdx-other - 更新日期: 2026-04-08
- 地理范围: 塞拉利昂 (SLE)
- 语言: 英语
- 领域: 人道主义与发展数据
- 观测单位: 国家级汇总数据
- 总行数: 2,650
- 列数: 31(24个数值型,6个类别型,0个日期时间型)
数据划分
| 划分 | 样本数 |
|---|---|
| 训练集 | 2,120 |
| 测试集 | 530 |
任务类型
- 表格分类 (tabular-classification)
- 表格回归 (tabular-regression)
核心内容
数据集包含塞拉利昂港口的每日船舶到港次数、估计的进口货物量和出口货物量(以公吨计),每条记录代表国家层面的汇总数据。
主要变量
- 地理变量:
year(2019-2026),day(1-31),country(Sierra Leone),iso3(SLE) - 时间变量:
date,month(1-12) - 标识/元数据:
portid(port360),portname(Freetown),esa_source(HDX),esa_processed(2026-04-28) - 船舶到港次数:
portcalls_container(0-2),portcalls_dry_bulk(0-3),portcalls_general_cargo(0-6),portcalls_roro(0-1),portcalls_tanker(0-3),portcalls_cargo(0-8),portcalls(0-8) - 进口量 (公吨):
import_container(0-20875),import_dry_bulk(0-83287),import_general_cargo(0-17442),import_roro(0-3850),import_tanker(0-43895),import_cargo(0-83287),import(0-83287) - 出口量 (公吨):
export_container(0-14778),export_dry_bulk(0-187960),export_general_cargo(0-13153),export_roro,export_tanker,export_cargo,export
数据处理流程
原始数据通过 HDX 的 CKAN API 下载并转换为 Parquet 格式。列名统一为小写蛇形命名法,缺失值标记(如 N/A, null, none 等)统一替换为 NaN。部分列基于解析成功率(>85%)从字符串转为数值或日期时间类型。数据集以固定随机种子 (42) 按 80/20 比例随机划分为训练集和测试集,保存为 Snappy 压缩的 Parquet 文件。
局限性
- 数据源自 PortWatch,未经 Electric Sheep Africa 独立验证。
- 自动化清洗无法纠正原始数据中的错误报告、定义不一致或采样偏差。
- 建议参考原始 HDX 数据集页面获取发布方的方法说明和注意事项。
引用格式
bibtex @dataset{hdx_africa_ports_sierra_leone, title = {Sierra Leone: Daily Port Activity Data and Shipment Estimates}, author = {PortWatch}, year = {2026}, url = {https://data.humdata.org/dataset/sierra-leone-daily-port-activity-data-and-shipment-estimates}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
在塞拉利昂港口物流与人道主义数据领域,该数据集依托PortWatch发布的海事活动记录,经由Electric Sheep Africa团队从HDX平台通过CKAN接口抓取原始数据,并转化为机器学习友好的Parquet格式。数据清洗过程中,列名被统一为小写蛇形命名法,常见缺失值标记(如N/A、null等)被归一化为NaN,同时基于解析成功率超过85%的阈值将一列字符串转换为数值或日期类型。最终以固定随机种子(42)按80/20比例划分为训练集(2120条)与测试集(530条),并以Snappy压缩格式存储。
使用方法
使用者可通过HuggingFace的datasets库直接加载该数据集,调用load_dataset('electricsheepafrica/africa-ports-sierra-leone')命令即可获取训练与测试分割。数据以Pandas DataFrame形式用于表格分类或回归分析,例如预测港口吞吐量或靠泊频率。建议结合时间特征(如年月日)与港口类型变量构建模型,并参考原始HDX页面了解采集方的方法论,以规避自动清洗可能遗留的偏差。
背景与挑战
背景概述
非洲港口物流数据的系统化采集与分析是理解区域贸易格局和评估人道主义需求的关键环节。由PortWatch于2026年发布、经Electric Sheep Africa整理成机器学习就绪格式的“africa-ports-sierra-leone”数据集,聚焦塞拉利昂境内港口的日常活动与货运估算,涵盖2019至2026年间每日的船舶停靠次数、进口与出口吨位等31项结构化指标。该数据集由人道主义数据交换平台(HDX)提供原始来源,经标准化清洗与80/20分割后形成训练集(2120条)与测试集(530条),旨在为非洲贸易流动性分析、港口效能评估及人道主义物流预测提供高质量的基准数据。其发布标志着机器学习方法在非洲地域性港口经济研究中的应用迈出重要一步,对推动数据驱动的区域发展规划具有奠基性影响力。
当前挑战
该数据集面临的核心挑战首先源自领域问题的复杂性:塞拉利昂港口活动受制于基础设施脆弱、数据采集不连续以及手工记录误差等现实瓶颈,导致原始数据可能存在漏报或定义偏差,直接挑战模型对货运波动与贸易趋势的精准预测能力。其次,构建过程中存在显著阻碍——原始数据来源于PortWatch且未经独立验证,自动化清洗虽能统一缺失值标记与类型转换,却无法纠正历史报告中的系统性偏误或时变采样缺失;同时,31维特征中约半数的进出口变量呈现右偏分布(如进口干散货均值5466吨但中位数为0),稀疏性与零膨胀特征为回归与分类任务的技术选型设下严峻考验。
常用场景
经典使用场景
在非洲物流与贸易分析领域,Sierra Leone每日港口活动数据集为研究者提供了珍贵的时间序列数据资源。该数据集涵盖了2019年至2026年间塞拉利昂主要港口的船舶靠泊记录、各类货物的进出口估算吨位等关键指标,包括集装箱、散货、杂货、滚装船和油轮等多种运输类型的详细统计。经典使用场景聚焦于构建港口活动预测模型,通过历史数据中的靠泊频次和货物流量规律,利用机器学习算法对未来的港口繁忙程度、货物吞吐量进行时序预测,为区域贸易态势的量化分析奠定坚实基础。
解决学术问题
该数据集有效回应了发展中国家港口数据稀缺这一学术困境。传统上,西非地区的海港运营数据往往零散、不完整或获取门槛高,制约了物流效率、供应链韧性以及经济影响评估等方向的研究。依托该数据集,学者得以定量探讨塞拉利昂港口活动与国内生产总值、物价波动等宏观经济变量之间的关联,揭示港口拥堵对贸易成本的实际影响。数据集中细化的商品类型划分更支持针对性的进出口结构分析,推动了资源依赖型经济体贸易模式研究的深入发展。
实际应用
在实际应用层面,该数据集展现出显著的决策支持价值。人道主义机构可依据港口货物到港预测,提前规划物资储备与运输调度,应对潜在供应短缺风险。政府部门能够利用历史趋势评估港口基础设施扩建的迫切性,优化海关与物流资源配置。国际贸易企业则借助其中的船舶靠泊和货物估算数据,动态调整库存策略与航线安排,降低运营成本。此外,该数据集经标准化清洗后以机器学习就绪格式发布,极大降低了技术门槛,使非营利组织也可便捷开展数据驱动的港口效能评估。
数据集最近研究
最新研究方向
该数据集聚焦于西非国家塞拉利昂港口的日常活动轨迹与货运量估算,在 humanitarian 数据科学和区域物流建模领域具有前沿应用价值。随着非洲大陆自由贸易区(AfCFTA)的推进,港口效率与贸易流量的实时量化成为研究热点。该数据集通过整合2019至2026年间弗雷敦港的装卸货类别与吨位记录,为构建港口拥堵预测模型、评估自然灾害对供应链的冲击以及优化人道主义物资调配提供了可训练的基准数据。其按货物类型(干散货、集装箱、滚装船等)细化的进出口指标,使得研究者能够探索经济波动与港口瓶颈之间的非线性关系,进而支持联合国可持续发展目标(SDG 9)中关于基础设施韧性的量化评估。此外,数据集经 Electric Sheep Africa 标准化为 Parquet 格式并划分训练/测试集,大幅降低了机器学习应用于非洲物流分析的入门门槛,推动了从传统统计描述向预测性分析的范式转变。
以上内容由遇见数据集搜集并总结生成



