YieldSAT

Name: YieldSAT
Creator: 凯泽斯劳滕-兰道大学; 德国人工智能研究中心; Vision Impulse有限公司; 格罗宁根大学
Published: 2026-04-01 22:13:23
License: 暂无描述

arXiv2026-04-01 更新2026-04-03 收录

下载链接：

https://yieldsat.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

YieldSAT是由德国人工智能研究中心等机构联合构建的多模态农作物产量预测基准数据集，覆盖阿根廷、巴西等4个国家的小麦、大豆等4类主要作物。该数据集包含2,173个专家标注田块，总计1,220万条10米分辨率的产量样本，并配套11.3万张多光谱卫星影像及环境辅助数据。数据通过联合卫星遥感、气象土壤等多源信息，经标准化预处理流程构建，旨在推动数字农业领域的高分辨率产量预测模型开发，解决现有数据稀缺性、低质量及区域局限性问题。

提供机构：

凯泽斯劳滕-兰道大学; 德国人工智能研究中心; Vision Impulse有限公司; 格罗宁根大学

创建时间：

2026-04-01

原始信息汇总

YieldSAT数据集概述

数据集基本信息

数据集名称: YieldSAT: A Multimodal Benchmark Dataset for High-Resolution Crop Yield Prediction
发布机构: RPTU Kaiserslautern-Landau, DFKI GmbH, Vision Impulse GmbH, University of Groningen
发布会议: CVPR 2026

核心特点与定位

首个同时支持田块级别和亚田块（像素）级别作物产量预测的多模态数据集。
结合了联合收割机产量数据、哨兵2号时间序列、天气、土壤和地形信息。
覆盖4个国家（阿根廷、巴西、乌拉圭、德国）、4种作物类型（玉米、油菜籽、大豆、小麦）和9个年份（2016-2024）。

数据集规模与构成

田块数量: 2,173个（专家人工检查）
总覆盖面积: 138,288公顷（约1,383 km²）
产量样本数: 超过1220万个
空间分辨率: 10米 × 10米
卫星图像数量: 113,555张（已标注）
特征数量: 72个

作物与国家分布详情

国家	玉米	油菜籽	大豆	小麦	总田块数	平均田块大小 (公顷)	覆盖年份
阿根廷	185	-	440	126	751	74.3	2017-2024
巴西	118	-	293	140	551	78.2	2017-2024
乌拉圭	-	-	572	-	572	57.3	2018-2022
德国	-	111	-	188	299	21.6	2016-2022
总计	303	111	1,305	454	2,173	57.8	2016-2024

数据模态详情

1. 联合收割机产量数据（核心）

来源: 配备GPS和产量监测系统的联合收割机。
内容: 地理坐标（经纬度）、湿产量、水分含量、时间戳。
处理流程:
- 格式标准化: 转换为shapefile格式，坐标系从WGS84转换为UTM。
- 质量控制: 农业专家人工检查和分类（好、中、差）。
- 异常值去除: 去除零产量、生物学上不可行的值（作物特定最大阈值）和统计异常值（±3σ）。
- 水分校正: 使用公式转换为标准干产量。
- 栅格化: 使用空间平均法转换为与哨兵2号网格对齐的10米分辨率栅格格式。

2. 哨兵2号时间序列

产品级别: Level-2A。
时间范围: 整个生长季（从播种到收获），约5天间隔。
光谱波段: 13个波段（包括场景分类层SCL）。
空间分辨率: 所有波段统一上采样至10米（使用最近邻插值法）。
SCL用途: 云掩膜和质量评估，提供12个类别标签（植被、非植被、水体、云、云阴影等）。

可用哨兵2号波段

波段	描述	中心波长 (nm)	原生分辨率 (米)	数据集分辨率 (米)
B01	海岸气溶胶	443	60	10
B02	蓝	490	10	10
B03	绿	560	10	10
B04	红	665	10	10
B05	红边1	705	20	10
B06	红边2	740	20	10
B07	红边3	783	20	10
B08	近红外	842	10	10
B8A	窄近红外	865	20	10
B09	水蒸气	945	60	10
B10	短波红外卷云	1380	60	10
B11	短波红外1	1610	20	10
B12	短波红外2	2190	20	10
SCL	场景分类	-	20	10

3. 辅助环境数据

所有数据源满足标准：(1) 对作物生长有影响，(2) 可免费获取，(3) 全球覆盖，(4) 高空间分辨率。

天气数据

来源: ERA5-Land再分析数据（ECMWF）。
时间分辨率: 日。
变量: 最高温度、平均温度、最低温度、总降水量。
空间分辨率: 30公里（插值至田块中心点）。
覆盖范围: 整个生长季。

土壤属性

来源: SoilGrids 2.0。
变量: 土壤有机碳、氮、阳离子交换量、粘土含量、粉砂含量、砂含量、pH值、粗碎屑。
深度层: 6层（0-5, 5-15, 15-30, 30-60, 60-100, 100-200 厘米）。
空间分辨率: 原生250米，使用三次样条插值上采样至10米。

地形数据

来源: SRTM（航天飞机雷达地形测绘任务）。
空间分辨率: 原生30米，使用三次样条插值上采样至10米。
变量: 数字高程模型、坡度、坡向、曲率、地形湿度指数。
处理: 使用RichDEM库计算衍生特征。

管理信息

作物类型: 玉米、油菜籽、大豆、小麦。
播种日期: 农民报告或从NDVI时间序列估算。
收获日期: 从联合收割机时间戳提取。
田块边界: 每个田块手动数字化的多边形。

数据集格式

预处理格式（ML就绪）

格式: Xarray数据集。
时间步长: 24个均匀采样的时间步长。
融合策略: 通过连接和空间/时间重复进行输入融合。
用例: 快速原型设计、基线模型、快速实验和快速训练。
优势: 可立即用于训练，标准化格式。

灵活格式

格式: 每个模态的单独文件及元数据。
模态: 哨兵2号、天气、土壤、地形、产量的单独文件。
用例: 高级融合方法、自定义预处理、新颖架构。
优势: 完全灵活性，保留原始时间、空间和光谱分辨率。

基准测试与关键发现

评估架构

仅时序模型: LSTM, Transformer。
时空模型: 3D-LSTM, 3D-ConvLSTM。
简单融合: 输入融合。
高级融合: 多模态门控融合, 基于注意力的特征融合。

评估设置

10折交叉验证
留一区域出
留一年出

关键发现

空间建模很重要: 带有3D-CNN块的模型通常优于仅时序基线。
高级融合有益: 特征融合模型在标准CV10评估下保持竞争力。
田块级别 vs 像素级别: 田块级别预测通常得分更高。
数据集变异性: 性能在不同国家、作物和实验设置间差异很大。
ADM效益取决于架构: 辅助模态可能有帮助，但其效果取决于融合方案和评估机制。

开放挑战：分布偏移

问题: 由于气候变异性、管理实践和环境条件，跨年份和区域的严重分布偏移。
影响: 模型在分布偏移下性能严重下降（LOYO下R²降低19个百分点，LORO下降低22个百分点）。
研究方向:
- 开发在分布偏移下保持性能的鲁棒模型。
- 将模型从一个区域/年份迁移到另一个的迁移学习方法。
- 在大规模地球观测数据上预训练以提高泛化能力的基础模型。
- 在偏移下为预测提供可靠置信度估计的不确定性量化。
- 结合作物生长模型和物理约束的物理信息方法。
- 理解模型所学内容及其在分布偏移下失败原因的可解释性。

引用

@inproceedings{miranda_2026_yieldsat, title={YieldSAT: A Multimodal Benchmark Dataset for High-Resolution Crop Yield Prediction}, author = {Miranda, Miro and Pathak, Deepak and Helber, Patrick and Bischke, Benjamin and Najjar, Hiba and Mena, Francisco and Sanchez, Cristhian and Pai, Akshay and Arenas, Diego and Toro, Matias Valdenegro and Charfualan, Marcela and Nuske, Marlon and Dengel, Andreas}, booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR)}, year={2026} }

搜集汇总

数据集介绍

构建方式

在精准农业与遥感技术深度融合的背景下，YieldSAT数据集的构建采用了系统化的多模态数据采集与融合策略。其核心流程始于联合收割机在田间作业时采集的高分辨率产量点矢量数据，这些原始数据经过严格的专家人工审核与质量标注，形成初始产量图。随后，通过标准化的预处理流程，包括多语言特征名称翻译、单位统一转换以及地理坐标系统一投影，确保数据的一致性。关键步骤在于将矢量产量数据与Sentinel-2多光谱卫星影像进行空间对齐，利用10米分辨率的卫星影像网格对产量点进行栅格化平均，生成与卫星像元一一对应的目标产量图像。同时，数据集整合了ERA5再分析天气数据、SoilGrids土壤属性数据以及SRTM地形数据等多种辅助环境模态，并通过空间插值统一至10米分辨率，最终构成一个包含超过113,555张标注卫星图像及相应环境特征的像素级回归数据集。

特点

YieldSAT数据集展现出多维度、高质量的显著特征。其地理覆盖范围广泛，横跨阿根廷、巴西、乌拉圭和德国四个主要粮食生产国，涵盖玉米、油菜、大豆和小麦四种关键作物类型，时间跨度长达九年（2016-2024），从而捕获了广泛的气候与产量变异性。数据集规模宏大，包含2,173个经过专家精心标注的田间样本，总计约1220万个空间分辨率为10米的像素级产量标签。数据模态高度丰富，每个样本不仅配对Sentinel-2全波段时间序列影像，还融合了天气、土壤、地形等72个特征，为模型提供了全面的作物生长环境信息。尤为突出的是，数据集首次在公开领域实现了田间与亚田间（像素级）产量预测的统一，并提供了详细的数据质量分级（优、中、差）以及每个像素的样本点数量与标准差信息，为不确定性量化研究奠定了基础。

使用方法

该数据集主要服务于基于深度学习的作物产量像素回归预测研究。研究者可将每个10米×10米的像素及其对应的时间序列多模态输入视为独立样本，构建端到端的预测模型。数据集提供了两种使用格式：一种是经过输入融合预处理的统一时间序列格式，便于快速开展基准模型训练与比较；另一种是保留原始模态结构的灵活格式，支持研究者开发更复杂的多模态融合架构。在模型评估方面，建议采用按田间分层的分组交叉验证策略，以确保训练集与测试集来自不同的田间区域，避免信息泄露。数据集固有的国家、作物、年份及区域间的分布偏移特性，为研究模型在留一年出与留区域出等真实场景下的泛化能力与鲁棒性提供了天然测试平台。此外，其提供的像素级支持大小与质量标签可用于探索空间相关不确定性建模及数据质量控制对预测性能的影响。

背景与挑战

背景概述

在数字农业蓬勃发展的背景下，高分辨率作物产量预测已成为实现精准农业管理与联合国可持续发展目标的关键技术。YieldSAT数据集由德国人工智能研究中心（DFKI）等机构的研究团队于2026年创建，旨在解决现有产量预测数据集普遍存在的规模有限、质量参差与地理覆盖狭窄等问题。该数据集整合了阿根廷、巴西、乌拉圭和德国四大农业区跨越九年的多模态数据，涵盖玉米、油菜、大豆和小麦四种主要作物，包含超过1200万个空间分辨率为10米的产量样本及11万余幅标注卫星影像。YieldSAT首次实现了田块与亚田块级别的像素回归任务统一框架，通过融合多光谱遥感、气象、土壤与地形等多源数据，为开发可扩展的数据驱动模型提供了高质量基准，显著推动了农业遥感与计算机视觉交叉领域的研究进程。

当前挑战

YieldSAT数据集致力于解决高分辨率作物产量预测这一复杂回归任务的核心挑战，其难点主要体现在模型泛化与数据构建两个层面。在领域问题层面，产量预测需处理多模态时间序列数据，并应对真实环境中严重的分布偏移现象，包括不同年份、区域及管理实践导致的产量与遥感特征分布差异，这常引发深度学习模型的性能退化。在构建过程中，挑战主要源于联合收割机原始数据的异质性，如传感器校准误差、空间定位不一致、测量延迟及多语言单位不统一等问题，需设计专家规则与标准化流程进行数据清洗与协调。此外，卫星影像的云层遮挡、多源数据时空分辨率对齐，以及产量数据固有的空间自相关性，均为构建高质量、像素级对齐的多模态数据集带来了显著的技术复杂性。

常用场景

经典使用场景

在精准农业与遥感科学领域，YieldSAT数据集为高分辨率作物产量预测提供了基准测试平台。该数据集通过整合多光谱卫星影像、气象数据、土壤属性及地形信息，构建了覆盖阿根廷、巴西、乌拉圭和德国四大农业区的多模态数据资源。其经典应用场景在于支持像素级回归任务，使研究人员能够基于Sentinel-2影像的10米空间分辨率，对玉米、油菜、大豆和小麦等主要作物进行田间及亚田间尺度的产量模拟。这种细粒度预测能力为探索作物生长的空间异质性及环境因子交互影响提供了数据基础。

衍生相关工作

YieldSAT的发布催生了一系列围绕多模态融合与分布偏移缓解的经典研究工作。例如，基于该数据集开发的3D-LSTM与注意力特征融合架构，显著提升了时空特征提取能力；针对数据分布偏移问题提出的领域感知深度集成方法，通过探索权重空间多样性增强了模型鲁棒性。此外，数据集还促进了遥感基础模型在回归任务中的探索，以及物理信息神经网络在作物生长模拟中的应用。这些衍生研究共同推动了农业人工智能从理论框架向实际部署的跨越。

数据集最近研究