nasa-cisto-data-science-group/modis-lake-powell-toy-dataset
收藏Hugging Face2023-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nasa-cisto-data-science-group/modis-lake-powell-toy-dataset
下载链接
链接失效反馈官方服务:
资源简介:
MODIS Water Lake Powell Toy Dataset是一个表格数据集,包含MODIS表面反射波段、计算出的指数以及一个标签(水/非水)。数据字段包括水的标签、MODIS表面反射波段1-7、归一化植被指数(NDVI)和归一化水体指数(NDWI1和NDWI2)。数据集分为训练集和测试集,测试集有200行,训练集有800行。数据集的创建基于MODIS MOD44W、MOD09GA和MOD09GQ产品,标签是通过使用MOD44W C6产品在MODIS表面反射产品中标记像素为陆地或水来创建的。
MODIS Water Lake Powell Toy Dataset是一个表格数据集,包含MODIS表面反射波段、计算出的指数以及一个标签(水/非水)。数据字段包括水的标签、MODIS表面反射波段1-7、归一化植被指数(NDVI)和归一化水体指数(NDWI1和NDWI2)。数据集分为训练集和测试集,测试集有200行,训练集有800行。数据集的创建基于MODIS MOD44W、MOD09GA和MOD09GQ产品,标签是通过使用MOD44W C6产品在MODIS表面反射产品中标记像素为陆地或水来创建的。
提供机构:
nasa-cisto-data-science-group
原始信息汇总
MODIS Water Lake Powell 小型数据集
数据集概述
该数据集是一个表格数据集,包含MODIS地表反射率波段以及计算的指数和一个标签(水/非水)。
数据集结构
数据字段
water: 标签,水或非水(二元)sur_refl_b01_1: MODIS地表反射率波段1(-100, 16000)sur_refl_b02_1: MODIS地表反射率波段2(-100, 16000)sur_refl_b03_1: MODIS地表反射率波段3(-100, 16000)sur_refl_b04_1: MODIS地表反射率波段4(-100, 16000)sur_refl_b05_1: MODIS地表反射率波段5(-100, 16000)sur_refl_b06_1: MODIS地表反射率波段6(-100, 16000)sur_refl_b07_1: MODIS地表反射率波段7(-100, 16000)ndvi: 归一化植被指数(-20000, 20000)ndwi1: 归一化水体指数1(-20000, 20000)ndwi2: 归一化水体指数2(-20000, 20000)
数据分割
数据集分为训练集和测试集。测试集包含200行,训练集包含800行。
数据集创建
源数据
数据来源于以下MODIS产品:
标注过程
标签是通过使用MOD44W C6产品来指定MODIS地表反射率产品中的像素为陆地或水体创建的。
搜集汇总
数据集介绍

构建方式
该数据集源自NASA的MODIS遥感观测体系,聚焦于美国鲍威尔湖区域的水体识别任务。其构建过程依托于MODIS MOD44W产品提供的陆地与水体分类掩膜,对MODIS MOD09GA与MOD09GQ地表反射率产品中的像素进行逐点标注,生成二值标签(水/非水)。数据集以表格形式组织,包含7个地表反射率波段(sur_refl_b01至b07)及三个衍生指数:归一化植被指数(NDVI)、归一化水体指数(NDWI1与NDWI2),所有特征数值均经标准化处理以适配机器学习模型。数据被划分为训练集(800行)与测试集(200行),为小样本水体分类研究提供了简洁而规范的实验基础。
特点
该数据集的核心特点在于其高度聚焦的领域适配性与简洁性。作为鲍威尔湖区域的样本级数据,它直接服务于遥感图像中的水体识别任务,避免了大规模遥感影像处理的复杂性。特征空间精心设计:原始反射率波段与经过物理意义计算的水体、植被指数相结合,既保留了光谱原始信息,又引入了增强判别能力的衍生特征。二分类标签明确且来源权威(MODIS官方产品),确保了标注的可靠性。此外,数据集规模精巧(总计1000行),训练与测试划分固定(8:2比例),便于快速迭代模型,特别适合作为概念验证、教学示范或算法基准测试的轻量级工具。
使用方法
该数据集的使用极为便捷,适用于监督学习框架下的二分类任务。用户可直接加载表格数据,将 'water' 字段作为目标变量,其余字段作为特征输入。推荐采用梯度提升树(如XGBoost、LightGBM)或神经网络等分类器进行训练,重点关注特征中NDWI等指数对水体识别的贡献。由于数据已预处理且规模较小,无需复杂的数据清洗或增强步骤。测试集(200行)可直接用于评估模型泛化能力。此外,数据集基于Apache-2.0许可证开源,便于集成到遥感水质监测、土地覆盖分类等研究管线中,或作为MODIS水体检测算法的入门实践数据。
背景与挑战
背景概述
该数据集由NASA CISTO数据科学团队创建,聚焦于利用MODIS遥感影像进行水体识别研究。MODIS传感器搭载于Terra和Aqua卫星,自2000年起持续提供全球地表反射率数据,为水文监测、生态评估等提供关键支撑。本数据集以美国鲍威尔湖为研究区域,通过整合MOD44W水体掩膜产品与MOD09GA、MOD09GQ地表反射率产品,构建了一个包含7个反射率波段及归一化植被指数、两种归一化水体指数的标注样本集。其核心研究问题在于验证基于多光谱特征的水体分类算法在干旱区水库场景中的有效性,为后续大尺度遥感水文分析提供基准数据。作为轻量级玩具数据集,它在推动遥感与机器学习交叉领域的方法学探索方面具有示范意义。
当前挑战
当前数据集面临多重挑战:首先,在领域问题层面,MODIS影像空间分辨率有限(250-500米),混合像元效应导致水体与陆地边界模糊,尤其在湖泊萎缩或植被茂密区域,传统光谱指数易产生误判;其次,构建过程中,标签依赖MOD44W产品,该产品本身存在季节性水体遗漏与云阴影干扰问题,影响标注精度;此外,数据集仅包含鲍威尔湖单场景样本,缺乏多样化的地理环境与水文条件覆盖,限制了模型泛化能力;最后,光谱反射率值域跨度大(-100至16000),指数值域不统一(-20000至20000),需设计标准化预处理策略以适配机器学习模型输入需求。
常用场景
经典使用场景
该数据集以美国鲍威尔湖为研究区域,整合了MODIS传感器的地表反射率波段与归一化植被指数(NDVI)、归一化水体指数(NDWI1和NDWI2)等多光谱特征,并提供了二值化的水陆标签。其经典使用场景在于构建和验证基于多光谱遥感的浅水水体识别模型,尤其适用于小样本条件下的监督学习任务,如决策树、随机森林或轻量级神经网络,以探索不同波段组合与光谱指数对水体提取精度的贡献。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于MODIS多光谱特征的水体指数阈值优化方法,以及利用集成学习(如XGBoost)提升水体分类精度的研究。后续工作还探索了将MODIS数据与Sentinel-2或Landsat数据融合,构建跨传感器水体识别模型,并推动了轻量化深度学习架构(如MobileNet)在边缘计算设备上的部署,为实时遥感监测系统奠定了基础。
数据集最近研究
最新研究方向
基于MODIS遥感影像的水体识别与时空动态监测研究正成为地球观测领域的前沿热点。该MODIS鲍威尔湖玩具数据集整合了地表反射率波段与归一化差异植被指数、水体指数等多维特征,为深度学习模型在水体分类任务中的训练与验证提供了标准化基准。当前研究聚焦于利用此类高分辨率时序数据,结合卷积神经网络或集成学习方法,提升干旱区水库水体边界提取的精度与鲁棒性。该数据集虽规模较小,但其清晰的二元标注与光谱-指数联合表征范式,为探索遥感大数据在气候变化背景下的湖泊水文响应、水资源管理及生态评估等关键议题提供了可复用的实验平台,具有重要的方法学参考价值。
以上内容由遇见数据集搜集并总结生成



