africa-daily-cross-border-trade-for-rwanda-6824
收藏Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-daily-cross-border-trade-for-rwanda-6824
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为'卢旺达每日FEWS NET跨境贸易数据',由FEWS NET自2010年起收集,包含卢旺达跨境贸易的第一级行政单位观测数据。数据集涵盖人道主义和发展领域,总共有8,472行数据和38列变量,其中包括5个数值型、31个类别型和2个日期时间型变量。数据已分为训练集(6,777行)和测试集(1,694行)。地理范围限定为卢旺达(RWA)。数据集经过Electric Sheep Africa整理,转换为适合机器学习的Parquet格式,并进行了标准化处理,如统一缺失值标记、删除高缺失率列等。数据包含地理、时间、结果测量、标识符/元数据等多个维度的变量,适用于表格分类和回归任务。但需要注意数据中存在部分列缺失值较高(如value_one_month_ago和pct_change_from_one_month_ago缺失率达71.4%),且原始数据未经ESA独立验证。
创建时间:
2026-04-08
原始信息汇总
数据集概述:Rwanda Daily FEWS NET Cross Border Trade Data
基本信息
- 数据集名称:Rwanda Daily FEWS NET Cross Border Trade Data
- 数据集标识:
electricsheepafrica/africa-daily-cross-border-trade-for-rwanda-6824 - 发布方:FEWS NET
- 数据来源:HDX (https://data.humdata.org/dataset/daily_cross_border_trade_for_rwanda_6824)
- 数据整理方:Electric Sheep Africa (https://huggingface.co/electricsheepafrica)
- 许可协议:CC-BY-4.0
- 最后更新日期:2026-03-28
- 语言:英语
- 领域:人道主义与发展数据
数据集内容与结构
- 数据描述:该数据集包含自2010年以来由FEWS NET收集的卢旺达每日跨境贸易数据。每条记录代表一级行政单位的观测数据。
- 地理范围:卢旺达 (RWA)
- 观测单位:一级行政单位观测数据
- 总行数:8,472
- 总列数:38
- 数据类型分布:5个数值型,31个类别型,2个日期时间型
- 数据划分:
- 训练集:6,777行
- 测试集:1,694行
核心变量
- 地理变量:
reporting_country(坦桑尼亚、卢旺达、乌干达)、reporting_country_code(TZ, RW, UG)、source_country_code、destination_country_code、flow_type等。 - 时间变量:
start_date、period_date、value_one_month_ago(范围0.3–1856000.0)、pct_change_from_one_month_ago(范围-99.9167–614741.6667)。 - 结果/测量变量:
value(范围0.0–7424000.0)。 - 标识符/元数据变量:
source(坦桑尼亚、乌干达、卢旺达)、indicator_name(TradeFlowQuantity)、source_organization、source_document、dataseries_name等。 - 其他变量:
border_point(Rusumo, Gatuna, Mpondwe)、destination(卢旺达、乌干达、刚果民主共和国)、cpcv2、product(碾米、小麦粒、小麦粉)、collection_status等。
数据预处理与划分
- 原始数据获取:通过CKAN API从HDX下载。
- 格式转换:转换为Parquet格式。
- 列名标准化:转为小写蛇形命名。
- 缺失值统一:将常见缺失值标记统一为
NaN。 - 列筛选:移除了10个缺失值超过80%的列。
- 类型转换:基于解析成功率(>85%阈值)将2列从字符串转换为数值或日期时间类型。
- 数据集划分:使用固定随机种子(42)按80/20比例划分为训练集和测试集,并保存为Snappy压缩的Parquet文件。
数值摘要
| 列名 | 最小值 | 最大值 | 平均值 | 中位数 |
|---|---|---|---|---|
value |
0.0 | 7424000.0 | 12705.0106 | 0.0 |
dataseries |
6545767.0 | 7402478.0 | 6736715.5022 | 6615019.0 |
common_unit_quantity |
0.0 | 737810000.0 | 711912.7948 | 0.0 |
value_one_month_ago |
0.3 | 1856000.0 | 9038.5352 | 354.7 |
pct_change_from_one_month_ago |
-99.9167 | 614741.6667 | 1970.7909 | 233.2356 |
使用限制
- 数据来源于FEWS NET,未经ESA独立验证。
- 自动清洗无法纠正原始收集中误报的值、定义不一致或抽样偏差。
- 以下列缺失值超过20%,在建模时应谨慎使用:
value_one_month_ago、pct_change_from_one_month_ago。 - 建议参考原始HDX数据集页面以了解发布方的方法说明和注意事项。
引用格式
bibtex @dataset{hdx_africa_daily_cross_border_trade_for_rwanda_6824, title = {Rwanda Daily FEWS NET Cross Border Trade Data}, author = {FEWS NET}, year = {2026}, url = {https://data.humdata.org/dataset/daily_cross_border_trade_for_rwanda_6824}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
在非洲区域贸易监测领域,该数据集由FEWS NET自2010年起系统采集卢旺达的每日跨境贸易数据,原始数据来源于人道主义数据交换平台。数据经过Electric Sheep Africa团队的精心处理,通过CKAN API获取原始资料后,执行了标准化清洗流程,包括统一缺失值标记为NaN、将列名转换为蛇形命名法,并移除了缺失率超过80%的冗余字段。为确保机器学习任务的适用性,团队依据解析成功率将字符串字段转换为数值或时间类型,最终以固定随机种子按80/20比例划分为训练集与测试集,并以Snappy压缩的Parquet格式存储,实现了从原始记录到结构化数据的科学转化。
特点
该数据集以表格形式呈现,涵盖8472条观测记录,每条记录代表卢旺达一级行政单位的贸易动态。其核心特征体现在多维度的变量设计上,包含38个字段,融合了地理、时间、贸易指标与元数据四大类别。地理维度精细刻画了报告国、边境点与流向信息;时间维度通过起始日期与周期日期构建连续时序框架;贸易指标以数值型变量量化交易规模,并辅以月度同比变化率揭示波动规律。值得注意的是,数据集在保持高完整性的同时,亦坦诚标注了部分字段存在较高缺失率,为研究者提供了透明且可靠的数据基础。
使用方法
该数据集适用于表格分类与回归任务,尤其适合探索非洲跨境贸易的时空规律与影响因素。使用者可通过Hugging Face的datasets库直接加载,利用Python环境将数据转换为Pandas DataFrame以进行后续分析。在建模过程中,建议优先关注完整性较高的核心字段,如贸易值与产品类别;对于存在缺失的时间序列衍生变量,需采用适当的插补或加权方法处理。数据集已预设训练与测试分割,支持直接应用于机器学习流水线,同时鼓励研究者结合原始发布方的方法论说明,以深化对数据背景与局限性的理解。
背景与挑战
背景概述
在全球化与区域经济一体化深入发展的背景下,跨境贸易数据的实时监测与分析成为评估地区经济韧性、预警粮食安全风险及制定人道主义干预政策的关键依据。由FEWS NET(饥荒预警系统网络)自2010年起持续收集的卢旺达每日跨境贸易数据集,聚焦于东非地区以卢旺达为核心的农产品与商品流动。该数据集以一级行政区划为观测单元,详尽记录了包括大米、小麦等关键商品的贸易量、流向及价格变动,为发展经济学、农业经济学及人道主义物流研究提供了高时空分辨率的实证基础。Electric Sheep Africa机构于2026年将其重构为机器学习可用格式,进一步推动了数据驱动决策在非洲发展领域的应用。
当前挑战
该数据集旨在解决跨境贸易流量预测与异常检测这一领域核心问题,其挑战在于贸易数据具有高度的非平稳性与复杂性,受季节性、政策变动、边境管制及非正规经济等多重因素交织影响,构建精准的预测模型面临严峻考验。在数据构建过程中,原始采集面临报告不一致、定义差异及采样偏差等固有局限,且关键时序特征如`value_one_month_ago`存在超过70%的缺失率,为数据清洗与插补带来了显著困难。此外,自动化流程难以校正原始数据中的误报值与概念不一致问题,要求研究者在使用时结合领域知识进行审慎验证与解释。
常用场景
经典使用场景
在区域经济与贸易研究领域,该数据集为分析东非地区跨境贸易动态提供了精细化的时序数据支撑。研究者可依据报告国家、边境点、商品类别等维度,追踪卢旺达与坦桑尼亚、乌干达等邻国之间每日贸易流量的演变轨迹。通过构建回归或分类模型,能够深入探究农产品如大米、小麦等关键物资的跨境流动规律,揭示贸易网络的结构性特征与季节性波动。
解决学术问题
该数据集有效应对了发展经济学中关于跨境贸易数据稀缺性与颗粒度不足的学术挑战。其高频率的观测记录使得学者能够精确量化贸易政策变动、边境管制措施或气候冲击对区域粮食安全的影响机制。同时,数据集的结构化特征支持对贸易流量预测、异常检测及因果推断等计量问题的建模,为理解非洲区域经济一体化进程提供了实证基础。
衍生相关工作
围绕该数据集衍生的经典研究多聚焦于机器学习在贸易预测与异常识别中的应用。例如,学者们构建了基于时间序列的LSTM或Transformer模型,以预测未来数周的关键商品贸易量;亦有工作利用聚类算法识别边境点的贸易模式异质性,或通过因果森林方法评估特定政策干预对贸易流的净效应。这些成果显著推动了数据驱动的发展经济学研究范式。
以上内容由遇见数据集搜集并总结生成



