five

CropNet

收藏
arXiv2024-06-10 更新2024-06-12 收录
下载链接:
https://huggingface.co/datasets/CropNet/CropNet
下载链接
链接失效反馈
官方服务:
资源简介:
CropNet数据集是由特拉华大学和路易斯安那大学拉斐特分校联合创建的,是首个针对美国大陆县级气候变化感知作物产量预测的公开大型多模态数据集。该数据集包含三种模态数据:Sentinel-2影像、WRF-HRRR计算数据集和USDA作物数据集,覆盖2291个美国县,时间跨度为2017至2022年。数据集通过整合卫星图像、气象参数和县级作物产量信息,旨在帮助研究人员开发能够考虑短期生长季节天气变化和长期气候变化影响的作物产量预测模型。此外,CropNet数据集还提供了灵活的API,便于研究人员根据特定时间和区域需求下载数据,并构建精确的作物产量预测深度学习模型。

The CropNet dataset, jointly developed by the University of Delaware and the University of Louisiana at Lafayette, is the first publicly available large-scale multimodal dataset for county-level climate-aware crop yield prediction across the contiguous United States. This dataset includes three modalities of data: Sentinel-2 imagery, WRF-HRRR computational dataset, and USDA crop dataset, covering 2291 U.S. counties and spanning the period from 2017 to 2022. By integrating satellite imagery, meteorological parameters and county-level crop yield data, this dataset aims to help researchers develop crop yield prediction models that take into account both short-term growing-season weather fluctuations and the impacts of long-term climate change. Furthermore, the CropNet dataset offers a flexible API, allowing researchers to download data tailored to specific temporal and spatial needs and construct accurate deep learning models for crop yield prediction.
提供机构:
特拉华大学
创建时间:
2024-06-10
搜集汇总
数据集介绍
main_image_url
构建方式
在精准农业与气候变化研究的交叉领域,CropNet数据集通过整合多源异构数据,构建了一个面向县级作物产量预测的大规模多模态资源。其构建过程始于对三种核心数据源的系统采集:Sentinel-2卫星影像提供高分辨率农业图像与植被指数,WRF-HRRR模型输出日度与月度气象参数,USDA农业统计则贡献了玉米、棉花、大豆和冬小麦的年度产量真值。为实现时空对齐,研究团队设计了创新的数据融合方案,将县级区域划分为9x9公里网格,并利用经纬度信息将卫星影像与气象数据进行空间匹配。所有数据均经过标准化处理,卫星影像以HDF5格式高效存储,气象与产量数据则以CSV格式组织,最终通过统一的JSON配置文件实现多模态数据的便捷访问与集成。
特点
CropNet数据集展现出若干显著特征,使其在农业人工智能领域独树一帜。其规模达到TB级别,覆盖美国本土2291个县长达六年的数据,具备前所未有的时空广度。数据集的多模态本质尤为突出,同步囊括了视觉卫星影像、数值气象参数与统计产量标签,为全面建模作物生长与气候因子的交互影响提供了坚实基础。数据的高质量亦值得称道,卫星影像经过云覆盖率筛选与重访频率优化,气象参数则包含了平均温度、降水、蒸气压亏缺等九个关键生长指标。这种设计使得数据集能够同时捕捉生长季内的短期天气波动与跨年度的长期气候变化效应,为开发气候感知的预测模型创造了理想条件。
使用方法
为促进该数据集的广泛应用,研究团队配套发布了CropNet软件包,提供三类应用程序接口以简化使用流程。DataDownloader API支持用户按指定年份与县域代码动态下载最新数据,DataRetriever API便于从本地存储中灵活提取目标时空范围的数据。对于模型开发,DataLoader API能够无缝集成多模态数据,并将其转换为PyTorch等深度学习框架可用的数据加载器。在实际研究中,用户可结合生长季的卫星影像序列与日度气象数据来追踪作物动态,同时引入历史月度气象序列以量化气候变化的影响。数据集已成功应用于LSTM、CNN、GNN及Vision Transformer等多种架构,验证了其在即时预测与提前一年预测等场景下的通用性与有效性。
背景与挑战
背景概述
精准的作物产量预测对于保障国家粮食安全和推动可持续农业实践具有至关重要的意义。随着人工智能技术在科学领域的广泛应用,其在药物发现、临近降水预报等诸多科学难题上已展现出卓越潜力。然而,深度学习模型在作物产量预测领域的发展,长期受制于缺乏一个开放、大规模且多模态的深度学习就绪数据集。为弥补这一空白,来自特拉华大学和路易斯安那大学拉斐特分校的研究团队于2024年推出了CropNet数据集。该数据集是首个面向美国本土县级尺度、具备太字节规模、公开可用的多模态数据集,旨在促进气候变化感知的作物产量预测研究。它整合了哨兵二号卫星影像、WRF-HRRR计算气象数据集和USDA作物统计数据三种模态,覆盖2017至2022年间超过2200个县,为核心研究问题——如何融合多源时空信息以精确量化短期天气波动与长期气候变化对作物产量的复合影响——提供了关键数据基础,预期将显著推动农业信息学与气候智能型农业领域的模型创新。
当前挑战
CropNet数据集致力于应对气候变化感知的县级作物产量预测这一复杂领域问题,其核心挑战在于如何有效融合异质、高维的时空模态数据以捕捉影响作物生长的多尺度环境因子。具体而言,该领域问题的挑战包括:建模作物生长对高频天气波动与低频气候趋势的非线性响应;整合高分辨率遥感影像的视觉特征与数值气象参数以提升预测精度。在数据集构建过程中,研究团队面临多重工程挑战:首先,实现不同数据源(卫星、气象模型、农业统计)在空间与时间维度上的精确对齐,例如将WRF-HRRR模型的3公里网格数据与哨兵二号影像的9公里网格进行空间聚合。其次,处理大规模数据获取与存储的效率问题,如设计全局缓存方案将气象参数提取时间从60天缩减至42天,并采用HDF5格式压缩卫星影像数据以节省存储空间。最后,对原始非结构化农业统计数据进行深度清洗与格式化,使其适用于深度学习流水线。
常用场景
经典使用场景
在农业信息学与气候智能农业领域,CropNet数据集为研究者提供了一个大规模、多模态的基准平台,专门用于开发能够感知气候变化的县级作物产量预测模型。其经典使用场景在于整合高分辨率哨兵二号卫星影像、WRF-HRRR气象计算数据以及美国农业部作物统计资料,通过时空对齐的多模态信息流,支撑从卷积神经网络、长短期记忆网络到图神经网络与视觉Transformer等多种深度学习架构的模型训练与验证,旨在精准捕捉作物生长周期内的短期天气波动与长期气候变化对产量的复合影响。
解决学术问题
CropNet数据集有效应对了农业人工智能研究中长期存在的关键挑战:缺乏开放、大规模且深度学习友好的多模态数据集。它通过提供覆盖美国本土超过2200个县、时间跨度六年的对齐数据,解决了单一模态数据信息不足、标注稀缺以及时空分辨率不匹配等学术瓶颈。该数据集使得研究者能够系统探索作物生长与气象因子间的复杂关联,推动气候感知型产量预测模型从理论框架走向实证验证,为粮食安全预警与可持续农业管理的科学决策提供了坚实的数据基础。
衍生相关工作
CropNet数据集的发布催生了一系列聚焦于多模态融合与时空预测的创新研究。以该数据集为基础,学者们发展了如MMST-ViT等多模态时空视觉Transformer模型,探索了卫星影像与气象参数的交叉注意力机制。同时,研究工作也扩展到自监督预训练领域,利用数据集中海量的视觉与数值数据提升模型的泛化能力。此外,基于CropNet的图神经网络与循环神经网络混合架构(GNN-RNN)等工作,进一步深化了对地理空间依赖与时间序列动态的理解,推动了气候智能农业分析方法的演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作