ibm-nasa-geospatial/multi-temporal-crop-classification
收藏Hugging Face2025-02-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ibm-nasa-geospatial/multi-temporal-crop-classification
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了2022年美国大陆范围内不同土地覆盖和作物类型的时序Harmonized Landsat-Sentinel图像,用于训练地理空间机器学习模型,特别是用于作物类型分割的模型。数据集由训练和验证数据集组成,图像经过质量控制,以确保无云和其他不良影响的数据。
This dataset contains temporal Harmonized Landsat-Sentinel imagery of diverse land cover and crop type classes across the Contiguous United States for the year 2022, intended for training geospatial machine learning models, particularly for crop type segmentation. The dataset is composed of training and validation sets with images that have undergone quality control to ensure cloud-free and other adversely affected data.
提供机构:
ibm-nasa-geospatial
原始信息汇总
数据集概述
数据集名称
Multi-Temporal Crop Classification
数据集描述
该数据集包含2022年美国本土的Harmonized Landsat-Sentinel时间序列影像,涵盖多种土地覆盖和作物类型。目标标签来自美国农业部的Crop Data Layer (CDL)。主要用于训练地理空间机器学习模型。
数据集结构
- TIFF文件:每个TIFF文件覆盖224x224像素区域,空间分辨率为30米。每个输入卫星文件包含18个波段,包括6个光谱波段,分为三个时间步骤堆叠。每个GeoTIFF掩码文件包含一个波段,每个像素对应目标类别。
- 波段顺序:每个输入GeoTIFF中,以下波段重复三次,代表整个生长季节的三个观测:
- 1, Blue, B02
- 2, Green, B03
- 3, Red, B04
- 4, NIR, B8A
- 5, SW 1, B11
- 6, SW 2, B12
- 掩码值:
- 0 : "No Data"
- 1 : "Natural Vegetation"
- 2 : "Forest"
- 3 : "Corn"
- 4 : "Soybeans"
- 5 : "Wetlands"
- 6 : "Developed/Barren"
- 7 : "Open Water"
- 8 : "Winter Wheat"
- 9 : "Alfalfa"
- 10 : "Fallow/Idle Cropland"
- 11 : "Cotton"
- 12 : "Sorghum"
- 13 : "Other"
数据分割
数据集随机分为训练集(80%)和验证集(20%),对应的ID记录在train_data.txt和validation_data.txt文件中。
数据集创建
- 查询和场景选择:首先定义5000个芯片样本,确保CONUS的代表性。然后查询2022年3月至9月的HLS S30场景,选择低云覆盖的场景,并从中选择三个场景以代表生长季节的不同阶段。
- 芯片生成:对每个芯片的三个场景进行裁剪,并将18个光谱波段堆叠。应用质量控制,排除包含云、云影、邻近云或缺失值的芯片。
数据下载
数据以.tgz格式提供,需要安装Git Large File Storage进行下载。数据也托管在Source Cooperative的AWS S3上。
搜集汇总
数据集介绍

构建方式
本数据集的构建,始于对5,000个基于美国农业部作物数据层(USDA CDL)样本的代表性芯片的界定,确保了在连续美国(CONUS)范围内的全面采样。对于每个芯片,选取了2022年3月至9月期间的相应和谐化Landsat-Sentinel 30米分辨率影像,并优先选择云量低的场景。每个芯片的三个场景分别代表生长季节的早期、中期和末期,最后通过双线性插值将这些场景重投影到CDL的投影网格(EPSG:5070)。经过质量控制和剪裁,最终生成了3,854个包含18个光谱带的芯片。
特点
该数据集的特点在于其时间序列的影像数据,提供了作物生长季节内的三个时间点的光谱信息。数据集采用GeoTIFF格式存储,每个文件覆盖224x224像素的区域,并包含一个用于标记目标类别的单波段。此外,数据集的类分布均衡,涵盖了多种土地覆盖和作物类型,如玉米、大豆、森林等,使得模型训练更具泛化能力。
使用方法
使用本数据集时,用户可以下载.tgz格式的数据,并需要安装Git Large File Storage以处理大型文件。数据同样可在Source Cooperative的AWS S3上获取。数据集分为训练集和验证集,且对应的id记录在csv文件中。用户可依据这些id进行数据加载和分割,进而用于地理空间机器学习模型的训练和验证。
背景与挑战
背景概述
在遥感与地理信息系统领域,多时相作物分类是精准农业的关键组成部分。IBM与NASA联合推出的ibm-nasa-geospatial/multi-temporal-crop-classification数据集,旨在为该领域提供有力的数据支撑。该数据集创建于2023年,由Dr. Hamed Alemohammad等研究人员精心策划,包含了2022年美国本土连续区域内的多种土地覆盖和作物类型的时间序列Harmonized Landsat-Sentinel影像。其目标标签来源于美国农业部Crop Data Layer (CDL),主要目的是为了训练地理空间机器学习模型进行作物分割,对于推动遥感技术在农业领域的应用具有显著影响。
当前挑战
该数据集在构建过程中面临了多个挑战。首先,确保数据的时间序列一致性和空间分辨率的高质量是关键。其次,从大量候选影像中筛选出具有代表性且云量低的影像,以及精确地匹配和重投影到CDL的投影网格,均需要高度的技术精度。此外,数据集在作物分类的准确性、数据分布的均匀性以及数据质量的控制等方面,也提出了较高的要求。这些挑战不仅涉及到数据处理的技术层面,还涉及到数据集在实际应用中对于不同作物类型分类的泛化能力。
常用场景
经典使用场景
在地理空间数据分析领域,ibm-nasa-geospatial/multi-temporal-crop-classification数据集被广泛用于训练分割地理空间机器学习模型。该数据集包含时间序列的Harmonized Landsat-Sentinel影像,跨越了美国本土的多种土地覆盖和作物类型。其核心应用场景在于通过多时相卫星图像,对作物类型进行精准分类,为农业监测和资源管理提供科学依据。
实际应用
在实际应用中,该数据集被用于构建智能农业系统,通过监测作物生长状况,帮助农民优化作物种植计划,提高农业生产的可持续性。同时,它也为政府机构提供了重要的数据支撑,用于制定农业政策、资源分配和环境保护策略。
衍生相关工作
基于ibm-nasa-geospatial/multi-temporal-crop-classification数据集,学术界衍生了多项相关研究工作,包括但不限于作物生长监测、病虫害预测、农业水资源管理等。这些研究进一步扩展了数据集的应用范围,为农业科技的发展贡献了重要力量。
以上内容由遇见数据集搜集并总结生成



