NuTonic/landshift-sft-v1
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/NuTonic/landshift-sft-v1
下载链接
链接失效反馈官方服务:
资源简介:
LandShift SFT是一个基于Sentinel-2卫星影像的时间序列对数据集,主要用于土地覆盖变化检测。数据集通过NDVI差异突出土地覆盖类型的变化,并提供变化描述和可选的变化区域标注。数据集包含训练集、验证集和测试集,分别有5315、653和694条记录。数据集的输入包括可选的事件文件和CLI命令。数据集布局包括JSONL文件、PNG图像和元数据。数据集的生成和上传有详细的说明,包括环境变量和STAC场景解析。数据集的主要限制包括仅使用光学Sentinel-2影像、云覆盖和重访间隔可能导致事件丢失或空变化掩码,以及描述和标注的启发式性质。
LandShift SFT is a dataset of temporal Sentinel-2 pairs (longer baseline by default) over sampled locations, primarily used for land-cover change detection. The dataset highlights land-cover–style change through NDVI delta and provides change captions and optional grounding for connected change regions. The dataset is divided into training, validation, and test sets with 5315, 653, and 694 records respectively. Inputs include an optional events file and CLI commands. The dataset layout consists of JSONL files, PNG images, and metadata. Detailed instructions are provided for dataset generation and upload, including environment variables and STAC scene resolution. Key limitations include optical-only Sentinel-2 usage, potential event drops or empty change masks due to cloud cover and revisit gaps, and heuristic nature of detections and captions.
提供机构:
NuTonic
搜集汇总
数据集介绍

构建方式
LandShift SFT数据集基于哨兵二号卫星影像的时间序列对构建,通过选取较长时间基线的采样地点,利用NDVI差值突出土地覆盖变化。数据集使用专用脚本从地球搜索引擎获取影像,并生成变化描述文本及可选的区域定位标注。每条记录包含前后时相的影像切片、对应的系统/用户/助手的多轮对话格式数据,以及存储场景标识、边界框和标注区域的元数据文件。训练、验证和测试集的划分依据事件标识的稳定哈希值,确保同一事件始终归入同一数据子集。
使用方法
用户可通过运行专用脚本从代码仓库根目录出发,利用命令行参数控制事件来源及生成规模。若不提供事件文件,系统默认采用基于种子随机采样的全球土地变化热点。数据集以JSONL格式组织,影像以PNG切片形式存储,便于加载视觉语言模型的标准训练管道。通过设置Hugging Face令牌并指定上传仓库标识,用户可将本地生成的数据集直接发布至模型库。对于已有部分数据的场景,支持跳过已下载的STAC记录以节省带宽。
背景与挑战
背景概述
LandShift SFT数据集由NuTonic研究机构于近期构建,旨在解决遥感领域中的土地覆盖变化检测与视觉语言模型(VLM)微调问题。该数据集基于Sentinel-2多光谱卫星影像,通过时间序列上的长基线配对(pre/post)和归一化植被指数(NDVI)差异图,捕捉地表覆盖类型的动态变化。每个样本均包含变化描述文本(change caption)以及可选的区域定位(grounding)信息,为训练能够理解遥感时序变化的视觉语言模型提供了高质量的监督数据。数据集共包含6662条记录,覆盖3958个空间瓦片,并按照稳定哈希分为训练、验证和测试集。其核心研究问题在于将经典的遥感变化检测任务与自然语言描述相结合,推动多模态地理空间智能的边界。LandShift SFT的发布为土地覆盖变化监测、灾害评估、环境变迁分析等下游任务提供了关键的数据支撑,具有较高的学术与应用影响力。
当前挑战
LandShift SFT数据集所解决的领域问题核心在于:传统遥感变化检测通常输出像素级掩膜或统计指标,缺乏语义层面的人类可读解释,而现有的视觉语言模型缺少针对时间序列遥感影像的高质量微调数据。构建过程面临的挑战包括:1)仅依赖Sentinel-2光学影像,云覆盖和卫星重访周期会导致有效事件样本丢失,或产生空的变化掩膜;2)变化信号的检测与文本生成依赖于启发式规则(如植被指数阈值),无法保证与真实地物变化属性完全一致,存在系统性偏差;3)数据管道涉及STAC元数据解析、大规模遥感影像下载与配对处理,对计算资源与网络稳定性要求较高;4)为确保模型输出的稳健性,助手文本采用了保守措辞(如“候选”“置信度限定”),这可能限制了描述的自然度与丰富性。
常用场景
经典使用场景
LandShift-SFT-v1数据集以时序Sentinel-2遥感影像对为核心,聚焦于地表覆盖变化检测任务。该数据集通过计算归一化植被指数差值图(NDVI delta)来突出典型的人为或自然驱动下的地表覆盖类型转变。图像切片以双时相配对的方式呈现,并配有自然语言描述的变化文本标注,对于存在连通变化区域的情形还附加了空间定位信息。这一设计使其成为视觉-语言模型(VLM)在遥感领域进行监督微调(SFT)的标准基准。
解决学术问题
该数据集主要解决了遥感变化检测研究中长期存在的两大瓶颈:公开标注数据匮乏且标注粒度不统一,以及变化语义描述与空间位置信息难以协同建模。LandShift-SFT-v1通过提供带有区域性变化区域与自然语言标注的结构化样本,为研究如何从卫星时序图像中生成精准、可解释的变化描述提供了可靠的数据支撑。这一基础性资源的建立,有力推动了遥感领域向细粒度的语义级变化理解与智能问答方向发展。
实际应用
在实际应用中,该数据集可服务于一系列国土监测与生态治理任务。例如,利用微调后的视觉-语言模型对年度或季度Sentinel-2影像进行分析,能够自动识别城镇扩张区、农地转建设用地、森林砍伐或湿地萎缩等变化类型,并输出结构化的变化报告。在灾害应急响应的初期阶段,该数据集训练出的模型也能快速评估洪涝或火灾后地表的异变程度,从而辅助决策部门开展精准的资源调度与灾后恢复规划。
数据集最近研究
最新研究方向
LandShift SFT数据集聚焦于遥感领域的地表覆盖变化检测与视觉语言模型微调,利用多时相Sentinel-2影像对和NDVI差值捕捉土地变迁的动态纹理。结合变化描述与空间定位标注,该数据集为灾害监测、城市扩展追踪及生态系统演变等前沿应用提供了结构化训练资源。其构建方法通过稳定的全球采样策略和启发式标注,推动了弱监督下的跨模态理解研究,尤其在高频变化热点与低延迟响应场景中具有显著价值。
以上内容由遇见数据集搜集并总结生成



