africa-daily-cross-border-trade-for-somalia-6824
收藏Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-daily-cross-border-trade-for-somalia-6824
下载链接
链接失效反馈官方服务:
资源简介:
索马里每日FEWS NET跨境贸易数据集是由FEWS NET自2010年以来收集的人道主义和发展数据。该数据集包含20,162行和41列(8个数值型,31个类别型,2个日期时间型),分为训练集(16,129行)和测试集(4,032行)。数据覆盖索马里及其周边国家(如吉布提、埃塞俄比亚、肯尼亚)的第一级行政单位观测。主要变量包括地理信息(如报告国家、边境点、来源国、目的地国)、时间信息(如开始日期、周期日期)、贸易量(如值、一个月前的值、一年前的值)以及其他相关元数据。数据集适用于表格分类和回归任务,特别是与贸易流量分析和预测相关的应用。数据经过清洗和标准化处理,转换为Parquet格式,并分为训练和测试集。需要注意的是,部分列存在较高的缺失值比例,使用时应谨慎。
创建时间:
2026-04-08
原始信息汇总
数据集概述
基本信息
- 数据集名称:Somalia Daily FEWS NET Cross Border Trade Data
- 数据集标识:
electricsheepafrica/africa-daily-cross-border-trade-for-somalia-6824 - 发布方:FEWS NET
- 数据来源:https://data.humdata.org/dataset/daily_cross_border_trade_for_somalia_6824
- 许可证:cc-by-4.0
- 语言:英语
- 领域:人道主义与发展数据
- 地理范围:SOM(索马里)
- 数据收集起始时间:2010年
- HDX最后更新日期:2026-04-01
- 数据整理方:Electric Sheep Africa
数据集构成
- 总行数:20,162
- 总列数:41
- 数据类型分布:8个数值型,31个类别型,2个日期时间型
- 数据分割:
- 训练集:16,129行
- 测试集:4,032行
- 观测单位:一级行政单位观测数据
核心变量
- 地理变量:
reporting_country(索马里、吉布提、埃塞俄比亚)、reporting_country_code(SO、DJ、ET)、source_country_code、destination_country_code、border_point(Belet Hawo, Togwajale, Doblei)等。 - 时间变量:
start_date、period_date、value_one_month_ago、pct_change_from_one_month_ago。 - 结果/测量变量:
value(范围:0.0–1055350.0)。 - 标识/元数据变量:
source、indicator_name(TradeFlowQuantity)、source_organization、product(Rice (Milled), Refined sugar, Wheat Flour)等。
关键数值摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
value |
0.0 | 1055350.0 | 3487.8287 | 2.9 |
dataseries |
6544487.0 | 7402473.0 | 6638238.266 | 6614084.0 |
common_unit_quantity |
0.0 | 384000000.0 | 256209.9127 | 10.0 |
value_one_month_ago |
0.0 | 243775.0 | 2154.2918 | 972.0 |
pct_change_from_one_month_ago |
-99.9889 | 163900.0 | 489.9373 | 274.2455 |
数据整理与限制
- 整理过程:原始数据从HDX下载并转换为Parquet格式。列名标准化为蛇形命名法,统一了缺失值标记,移除了7个缺失值超过80%的列,将2列基于解析成功率转换为数值或日期时间类型。使用固定随机种子(42)按80/20比例分割为训练集和测试集。
- 数据限制:
- 数据源自FEWS NET,未经ESA独立验证。
- 自动清理无法纠正原始数据中的误报值、定义不一致或抽样偏差。
- 以下列缺失值超过20%,在建模中需谨慎使用:
value_one_month_ago、value_one_year_ago、value_two_years_ago、pct_change_from_one_month_ago、pct_change_from_one_year_ago。
使用方式
python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-daily-cross-border-trade-for-somalia-6824") train = ds["train"].to_pandas() test = ds["test"].to_pandas()
引用格式
bibtex @dataset{hdx_africa_daily_cross_border_trade_for_somalia_6824, title = {Somalia Daily FEWS NET Cross Border Trade Data}, author = {FEWS NET}, year = {2026}, url = {https://data.humdata.org/dataset/daily_cross_border_trade_for_somalia_6824}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
在非洲人道主义与发展数据领域,索马里每日跨境贸易数据集的构建体现了对原始监测数据的系统性整理与标准化过程。该数据集由饥荒预警系统网络自2010年起持续收集,原始数据通过人道主义数据交换平台的CKAN接口获取。构建过程中,数据被转换为Parquet格式,列名统一为蛇形命名法,常见缺失值标记被规范化为NaN。针对缺失率超过80%的七列数据进行了剔除,并依据超过85%的解析成功率将两列数据从字符串类型转换为数值或日期时间类型。最终,采用固定随机种子将数据集按80:20的比例划分为训练集与测试集,并以Snappy压缩的Parquet格式保存,确保了数据的机器学习可用性。
特点
该数据集在人道主义贸易监测领域展现出多维度、时序性的结构特征。数据集共包含20,162条观测记录,涵盖41个变量,其中包含8个数值型、31个分类型及2个日期时间型字段。地理维度覆盖索马里及其周边国家,详细记录了报告国、来源国、目的国及边境口岸等信息。产品维度则细化了稻米、精制糖、小麦粉等关键商品的贸易流动。时序特征通过起始日期与周期日期字段得以体现,并衍生出上月值、年度同比变化百分比等滞后与对比指标。然而,部分滞后变量存在较高缺失率,需在建模分析中审慎处理。
使用方法
对于致力于东非贸易分析与预测的研究者而言,该数据集为机器学习任务提供了结构化的输入。使用者可通过Hugging Face的datasets库直接加载数据集,便捷地转换为Pandas DataFrame进行探索性分析。数据集已预分为训练集与测试集,适用于监督学习框架,可支持基于行政单元观测值的分类或回归建模,例如预测特定商品的贸易流量或识别贸易模式的变化。在应用时,建议使用者参考原始发布方的方法论说明,并对高缺失率变量采取适当的插补或排除策略,以确保模型稳健性。
背景与挑战
背景概述
在全球化与区域经济一体化背景下,跨境贸易数据对于理解地区经济动态、制定人道主义援助政策具有关键价值。索马里每日跨境贸易数据集由饥荒预警系统网络(FEWS NET)自2010年起持续收集,并由Electric Sheep Africa机构于2026年重新整理为机器学习可用格式。该数据集聚焦于索马里及其周边国家(如埃塞俄比亚、肯尼亚)的日常贸易流动,涵盖农产品如大米、精制糖等关键物资的跨境交易量。其核心研究问题在于通过高频率的行政单元观测数据,揭示脆弱地区的贸易模式、预测粮食安全风险,并为区域发展决策提供实证支撑。作为人道主义与发展领域的重要数据资源,该数据集为经济学家、政策分析者及机器学习研究者提供了深入探究东非贸易网络的基础。
当前挑战
该数据集旨在解决跨境贸易流量预测与分类问题,其核心挑战在于数据的高度动态性与复杂性。贸易流动受地缘政治、气候波动及市场供需等多重因素影响,导致时间序列呈现非线性与突变特征,增加了模型预测的难度。在构建过程中,原始数据存在显著的缺失值问题,例如超过60%的月度同比变化字段为空,且部分历史数据列缺失率高达80%,需通过严谨的数据清洗与插补策略处理。此外,数据来源依赖于实地采集,可能包含报告不一致、定义差异及采样偏差,自动化流程难以完全校正这些固有噪声,对模型的鲁棒性与泛化能力构成持续考验。
常用场景
经典使用场景
在非洲人道主义与发展研究领域,索马里每日跨境贸易数据集为分析区域贸易动态提供了关键实证基础。该数据集通过记录2010年以来的每日贸易流量,涵盖大米、精制糖、小麦粉等关键商品,以及贝莱德哈沃、托格瓦贾莱等边境点的地理信息,经典应用于时间序列分析与预测建模。研究者利用其丰富的时序变量,如月度同比变化百分比,构建回归或分类模型,以揭示贸易波动背后的季节性规律与外部冲击影响,从而为区域经济稳定性评估提供数据驱动的洞察。
解决学术问题
该数据集有效应对了发展经济学中关于脆弱国家贸易数据稀缺的学术挑战。通过提供标准化、机器可读的跨境贸易记录,它使学者能够量化冲突、气候或政策干预对索马里及其邻国贸易网络的影响。具体而言,数据集支持探究贸易流动与粮食安全、价格传导机制之间的关联,解决了以往研究因数据粒度不足而难以进行微观实证分析的局限,为理解东非非正式经济体的运行逻辑提供了宝贵的经验证据。
衍生相关工作
围绕该数据集,已衍生出多项聚焦于非洲贸易预测与影响评估的经典研究。例如,部分工作利用其时序特征构建LSTM或Transformer模型,预测特定农产品的跨境流量;另一些研究则结合气候或冲突事件数据,进行因果推断分析,评估外部冲击对贸易网络的破坏程度。此外,数据集常作为基准,用于验证融合多源卫星数据与地面报告的新型混合预测方法,推动了人道主义数据分析方法学的创新与发展。
以上内容由遇见数据集搜集并总结生成



