asia-food-security-all
收藏Hugging Face2026-05-04 更新2026-05-05 收录
下载链接:
https://huggingface.co/datasets/electricsheepasia/asia-food-security-all
下载链接
链接失效反馈官方服务:
资源简介:
斯里兰卡粮食安全与营养指标数据集由联合国粮食及农业组织(FAO)发布,包含斯里兰卡国家层面的粮食安全与营养指标数据。数据集涵盖2000年至2025年的时间范围,包含1,098条记录,分为878条训练数据和219条测试数据。数据包含18个字段(5个数值型、11个类别型、2个日期时间型),涉及地理标识(如iso3、year_code)、时间标识(startdate、enddate)、测量值(value)以及元数据(如area_code、item_code等)。数据集适用于表格分类和回归任务,特别适合用于粮食安全和营养相关的研究与分析。数据经过清洗和标准化处理,转换为Parquet格式以便机器学习使用。需要注意的是,部分字段(如note)存在较高比例的缺失值,使用时需谨慎。
创建时间:
2026-05-04
原始信息汇总
数据集概述:Sri Lanka - Food Security and Nutrition Indicators
基本信息
- 数据集名称:Sri Lanka - Food Security and Nutrition Indicators
- 发布机构:Food and Agriculture Organization (FAO) of the United Nations
- 许可证:
cc-by-4.0 - 数据来源:HDX(Humanitarian Data Exchange)
- 更新日期:2026-05-04
- 数据集标识:
electricsheepafrica/asia-food-security-all
数据集描述
该数据集包含斯里兰卡(LKA)的粮食安全与营养指标,数据源自FAOSTAT批量数据服务。每一行代表国家级聚合数据,时间覆盖范围由startdate和enddate列指示。地理范围限定为斯里兰卡(LKA)。
数据集规模
- 总行数:1,098
- 列数:18(5列数值型,11列类别型,2列日期时间型)
- 训练集:878行
- 测试集:219行
特征变量
| 变量类型 | 变量名 | 说明 |
|---|---|---|
| 地理 | iso3 |
国家代码(LKA) |
| 时间 | year_code |
年份代码(2000.0–20222024.0) |
| 时间 | year |
年份(2000.0–2025.0) |
| 时间 | startdate |
起始日期 |
| 时间 | enddate |
结束日期 |
| 结果/度量 | value |
数值(-1.9–14760.0) |
| 标识/元数据 | area_code |
区域代码(38.0) |
| 标识/元数据 | area_code_m49 |
M49区域代码(144) |
| 标识/元数据 | item_code |
指标代码(210401F, 210091, 210091F) |
| 标识/元数据 | item |
指标名称(如女性成人严重粮食不安全发生率等) |
| 标识/元数据 | element_code |
元素代码(6121.0–61322.0) |
| 标识/元数据 | element |
元素名称(Value, Confidence interval: Lower bound, Confidence interval: Upper bound) |
| 其他 | area |
区域(Sri Lanka) |
| 其他 | unit |
单位(%, million No, kcal/cap/d) |
| 其他 | flag |
标志(E, X) |
| 其他 | note |
备注(70.5%缺失) |
| 其他 | esa_source |
来源(HDX) |
| 其他 | esa_processed |
处理标识 |
任务类型
该数据集适用于表格分类和表格回归任务。
数据清洗与预处理
- 原始数据通过CKAN API从HDX下载,转换为Parquet格式。
- 列名统一为小写snake_case格式。
- 常见缺失值标记统一转换为NaN。
- 3列数据根据解析成功率(>85%)从字符串转换为数值或日期时间类型。
- 使用固定随机种子(42)按80/20比例划分为训练集和测试集,保存为Snappy压缩Parquet文件。
局限性
- 数据来源于FAO,未经Electric Sheep Africa独立验证。
- 自动清洗无法纠正原始数据中的误报、定义不一致或采样偏差。
note列缺失值超过20%,在建模中需谨慎处理。- 建议查阅原始HDX数据集页面以了解发布者的方法论说明和注意事项。
引用
bibtex @dataset{hdx_asia_food_security_all, title = {Sri Lanka - Food Security and Nutrition Indicators}, author = {Food and Agriculture Organization (FAO) of the United Nations}, year = {2026}, url = {https://data.humdata.org/dataset/faostat-food-security-indicators-for-sri-lanka}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
本数据集源自联合国粮食及农业组织(FAO)发布的斯里兰卡粮食安全与营养指标,原始数据通过HDX平台的CKAN接口获取。Electric Sheep Africa团队将原始数据转化为机器学习友好的Parquet格式,通过统一缺失值标记、将列名转换为小写蛇形命名法,并依据解析成功率将部分字符串列转换为数值或日期类型。最终以固定随机种子将数据集划分为80%的训练集与20%的测试集,采用Snappy压缩的Parquet格式存储。
使用方法
用户可通过HuggingFace的`datasets`库直接加载数据,调用`load_dataset("electricsheepafrica/asia-food-security-all")`即可获取训练集与测试集,并支持转换为Pandas DataFrame进行后续分析。建议在建模时注意`note`列超过20%的缺失值,可选择性忽略或采用插补方法。数据适用于表格分类与回归任务,尤适合构建粮食安全预警模型、营养状况评估及政策影响分析等场景。
背景与挑战
背景概述
该数据集由联合国粮食及农业组织(FAO)于2026年发布,经Electric Sheep Africa机构整理为机器学习就绪的Parquet格式,聚焦斯里兰卡粮食安全与营养指标。数据集核心研究问题在于量化评估斯里兰卡全国层面的粮食安全状况,涵盖食物不足发生率、营养摄入量等关键指标,为政策制定者与研究人员提供基于证据的决策支持。作为FAOSTAT数据体系的子集,该数据集在 humanitarian 数据交换平台(HDX)上公开,填补了南亚地区粮食安全量化研究的细粒度数据空白,对推动区域可持续发展目标(SDG 2)的监测与评估具有重要价值。
当前挑战
数据集面临的核心挑战在于领域问题的复杂性:粮食安全指标本身具有多维性(如食物获取、利用、稳定性),而数据集仅提供国家层面的聚合数据,难以捕捉次国家级的区域差异与季节性波动。构建过程中,数据整合面临三大难点:其一,原始数据来源多样(如FAO统计、HDX接口),需统一缺失值标记与格式转换;其二,时间跨度涵盖2000年至2025年,不同时期的定义与测量标准可能存在不一致性;其三,部分列(如note)缺失率超过70%,自动清洗无法修正原始收集中的报告偏差,需谨慎处理建模中的变量选择问题。
常用场景
经典使用场景
在粮食安全与营养评估领域,asia-food-security-all数据集作为斯里兰卡国家层面的聚合指标集合,为研究者提供了从FAOSTAT系统整理的标准化时间序列数据。该数据集涵盖了食物不足发生率、中度和重度粮食不安全人口比例等核心指标,并附带了置信区间与计量单位等元数据信息,经典地用于构建预测模型以评估粮食安全动态变化,或分析营养状况与经济、地理因素之间的关联。其结构化的数值与分类变量使学者能够便捷地进行回归分析、分类任务及趋势预测,尤其适用于小样本国家级的食品安全横截面与纵向研究。
解决学术问题
该数据集有效应对了发展中国家粮食安全研究中长期存在的数据碎片化与标准化不足问题。通过整合FAO的官方统计资料并转换为机器学习就绪的Parquet格式,它解决了传统研究中手动清洗数据耗时、跨年份指标定义不一致等痛点。学者们得以利用此数据集开展精准预测营养不良发生率的研究,量化粮食安全干预措施的效果,并探索不同人口亚群(如女性群体)面临的食物不安全风险差异。其在学术上的意义在于降低了数据获取门槛,推动粮食安全领域从描述性分析向预测性建模转型,促进跨学科合作与可持续发展目标的监测评估。
实际应用
在实际应用层面,该数据集为人道主义援助组织和政策制定者提供了关键决策支持。例如,国际机构可基于历史粮食安全指标训练模型,实时预警斯里兰卡潜在的粮食危机区域,从而优化资源分配与食品援助计划。非政府组织和政府部门能利用其时间序列特性,评估农业政策、国际贸易波动或气候事件对国民营养状况的影响。此外,金融机构在评估农业贷款风险时,也可借助此数据集分析当地食品安全背景,而公共卫生部门则能精准识别营养干预的重点人群,提升施策效率与效果。
数据集最近研究
最新研究方向
该数据集聚焦于斯里兰卡粮食安全与营养指标的纵向追踪,涵盖2000年至2025年间粮食不安全患病率、能量供应等关键变量,为构建预测性机器学习模型提供了结构化基础。当前前沿方向集中于利用时间序列分析与回归模型,探索经济波动、气候冲击与政策干预对膳食能量供给及营养状况的量化影响,尤其关注性别差异(如女性中度至重度粮食不安全比例)的动态演变。结合人道主义数据交换平台(HDX)与联合国粮农组织的权威来源,该数据集在区域粮食危机预警、可持续发展目标(SDG 2)进展评估及亚洲农业韧性研究中扮演桥梁角色,推动了从描述性统计向因果推断与情景模拟的范式跃迁。
以上内容由遇见数据集搜集并总结生成



