Tonic/landshift-sft-v1-duplicate

Name: Tonic/landshift-sft-v1-duplicate
Creator: Tonic
Published: 2026-04-25 07:54:29
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Tonic/landshift-sft-v1-duplicate

下载链接

链接失效反馈

官方服务：

资源简介：

LandShift SFT数据集是一个基于时间序列Sentinel-2卫星图像对的数据集，主要用于突出显示土地覆盖类型的变化。数据集通过NDVI差异来强调变化，并提供了变化描述文本和可选的连接变化区域的基础信息。数据集包含训练集（187条记录）、验证集（52条记录）和空测试集。数据集的布局包括JSONL格式的训练、验证和测试文件，图像文件（PNG格式）以及元数据文件。数据集的分割基于event_id的稳定哈希值，确保相同event_id始终位于同一分割中。数据集可以通过特定脚本重新生成并上传至Hugging Face Hub。数据集的局限性包括仅使用光学Sentinel-2数据、检测和描述文本是启发式的等。

The LandShift SFT dataset consists of temporal Sentinel-2 pairs (longer baseline by default) over sampled locations, with NDVI delta highlighting land-cover–style change. The dataset emits change captions and optional grounding for connected change regions. It includes train (187 records), validation (52 records), and an empty test set. The dataset layout comprises JSONL files for train, validation, and test, PNG image files, and metadata files. Splits are assigned based on a stable hash of event_id. The dataset can be regenerated locally using specific scripts and uploaded to the Hugging Face Hub. Limitations include being optical-only Sentinel-2, heuristic detections and captions, and conservative assistant text wording.

提供机构：

Tonic

搜集汇总

数据集介绍

构建方式

LandShift SFT数据集基于时序Sentinel-2遥感影像对构建，通过计算归一化植被指数差值（NDVI delta）来突出地表覆盖变化区域。数据集的生成依托于NuTonic项目中的构建脚本，可选择性加载事件文件或使用预设的全球土地变化中心种子点。所有样本被组织为系统、用户与助手的对话格式，并附带图像路径引用。数据集被划分为训练集（187条）、验证集（52条）和测试集（0条），其中验证集与训练集的划分基于事件ID的稳定哈希值。

使用方法

使用者可通过NuTonic仓库中的构建脚本（build_lfm_vl_landshift_sft.py）在本地重新生成数据集，利用Element84 Earth Search的Sentinel-2 L2A数据源进行影像解析。数据集以JSONL格式存储对话样本，图像文件以PNG格式存放于images目录下，元数据则以JSON侧车文件形式提供。上传至HuggingFace Hub时需提供有效的访问令牌，并可通过--upload-repo参数指定目标仓库。环境变量如HF_TOKEN和HTTP_PROXY可根据网络需求配置。

背景与挑战

背景概述

LandShift SFT数据集由NuTonic团队构建，旨在利用时序Sentinel-2遥感影像对捕捉土地覆盖变化，并通过归一化植被指数（NDVI）差异图突出变化区域，为视觉语言模型（VLM）提供监督微调（SFT）样本。该数据集通过自动生成的变化描述和可选的变化区域定位信息，连接遥感变化检测与自然语言处理领域。其构建基于稳定的事件ID哈希划分训练集、验证集和测试集，并借助Element84 Earth Search解析哨兵影像，无需依赖Google Earth Engine或Mapbox等外部服务。尽管数据集规模较小（共计239条样本），但其开创性地将时序遥感变化检测与多模态语言模型相结合，为自动化土地变化解释、灾害监测和地理空间智能推理提供了新的数据基础，有望推动遥感领域从数值分析向语义理解转型。

当前挑战

该数据集面临多重挑战。在领域问题层面，遥感变化检测长期依赖人工标注或简单阈值，难以实现复杂语义的自动描述，LandShift SFT试图通过VLM弥合这一鸿沟，但光学影像固有的云覆盖和卫星重访周期限制了高质量配对样本的获取。在构建过程中，变化检测和描述生成依赖启发式算法（如NDVI阈值切割），缺乏真实标注验证，可能导致假阳性或语义偏差；同时，数据集规模有限（仅239条），且样本源于全球土地变化热点区域的种子采样，存在地理分布不均匀和类别不平衡问题。此外，文本次生语料采用保守措辞（如‘候选’或‘置信度限定词’），可能削弱模型对变化强度或紧迫性的准确判断，进一步增加了生成可靠土地变化解读的难度。

常用场景

经典使用场景

LandShift SFT数据集凭借其独特的时序哨兵二号影像对和归一化植被指数（NDVI）差异特征，为地理空间视觉语言模型（VLM）的监督微调提供了经典基座。该数据集围绕土地覆盖变化事件，精心构建了成对的遥感影像与对应的变化描述文本，使模型能够学习到从像素级变化到语义级描述的映射关系。研究者通常利用此数据集训练模型精准识别土地利用类型的转换，如森林砍伐、城市化扩张或农业区域更迭等典型场景，并生成符合自然语言逻辑的解说词。此外，数据集还包含可选的区域定位标注，进一步支撑了变化区域的空间定位与语言描述联合学习任务，为遥感图像解释领域开辟了端到端的多模态学习范式。其规范的训练、验证与测试划分策略，基于事件标识符的稳定哈希分配，确保了实验的可复现性与评估的公平性。

解决学术问题

该数据集有效缓解了遥感变化检测领域中标注样本稀缺且语义信息不足的学术困境。传统变化检测方法多基于二值掩码或分类标签，难以捕捉复杂变化过程中的丰富语义内涵，而LandShift SFT通过构建影像对与自然语言描述的强关联，推动了从简单变化识别向精细变化理解与阐释的能力跃迁。数据集解决了监督学习中视觉-语言对齐的关键难题，为模型提供了跨模态对比学习的优质样本，使模型能够超越像素差异的表征，达至更高级的语义推理层面。在学术意义层面，它架设了计算机视觉与自然语言处理在遥感领域的桥梁，促进了多模态智能在地球科学中的应用，降低了地理空间分析对人工标注的依赖，并为后续高时间分辨率、多时相分析的研究奠定了数据与方法论基础。

实际应用

在实际应用中，LandShift SFT数据集赋能了多个具有广泛社会与经济效益的领域。在城市规划与建设中，基于该数据集微调的模型能够自动监测建成区的扩展与绿地侵占，生成实时报告辅助决策。农业管理部门可利用卫星时序影像对解析作物类型的转变与轮作模式，洞察农业生产动态。生态环保领域，该数据集支持的模型可追踪森林覆盖退化、湿地萎缩或湿燥变化等关键生态指标，为生物多样性保护与碳收支估算提供频繁更新的证据链。紧急态势感知方面，模型能够快速识别洪水淹没范围或野火烧痕等突发生态事件，生成结构化描述以强化灾害响应系统的态势认知能力。这些应用大幅提升了从大尺度遥感数据中提取可操作情报的时效性与可解释性。

数据集最近研究