Shoozes/LFM-Orbit-SatData
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Shoozes/LFM-Orbit-SatData
下载链接
链接失效反馈官方服务:
资源简介:
LFM Orbit SatData是一个用于地球观测的训练数据集,由LFM Orbit为Liquid AI x DPhi Space Hackathon生成。数据集包含多种配置,如单图像SFT训练行、有序多帧SFT行、图像文件夹兼容的资产元数据等。当前导出包含81个Orbit样本、32个缓存API观测行、24个重放缓存行、6个视觉对象证据故事帧、4个持久化监控报告行、25个具有延时参考的记录、196个去重图像/帧资产、26个时间序列、15个仅元数据的任务行等。数据集还提供了加载和流式处理的Python代码示例。
LFM Orbit SatData is a training dataset for Earth-observation, produced by LFM Orbit for the Liquid AI x DPhi Space Hackathon. The dataset includes various configurations such as single-image SFT training rows, ordered multi-frame SFT rows, and image-folder-compatible asset metadata. The current export contains 81 Orbit samples, 32 cached API observation rows, 24 replay-cache rows, 6 visual object-evidence story frames, 4 persisted monitor-report rows, 25 records with timelapse references, 196 deduplicated image/frame assets, 26 temporal sequences, 15 metadata-only mission rows, etc. The README also provides Python code examples for loading and streaming the dataset.
提供机构:
Shoozes
搜集汇总
数据集介绍

构建方式
LFM-Orbit-SatData数据集由LFM Orbit为Liquid AI与DPhi Space Hackathon精心打造,旨在提供经过重新标注的地球观测训练数据。其构建基于多源Sentinel-2卫星影像,通过细腻的标签体系对单帧与时间序列数据分别组织。默认配置下,training_assets.jsonl存储包含图像、对话消息与元数据的单帧SFT样本;而temporal_sft配置则管理有序的多帧序列样本,避免序列数据被强行适配单帧架构。数据集还涵盖了资产元数据、完整重标注记录、时序溯源信息及人工审核队列,通过六个独立配置模块实现层次化构建。每次导出均执行严格的哈希复用策略,确保标签一致性,并通过离线缩略图技术减少远程请求延迟,从而保障大规模本地打包的流畅性。
特点
该数据集的核心特色在于其精细的重新标注机制与多模态融合设计。265条单帧SFT行与33条时间序列SFT行共同构成训练视角,其中145个图像标签与14个序列标签通过SHA-256算法复用,基于确定性启发式规则生成新哈希,避免重复劳动。数据集特别强化了对野火场景的标注,包含佛罗里达、佐治亚、西班牙及拉海纳等地区的70条资产元数据与11条时序元数据,分别标注为'wildfire'或'fireline'。此外,最新回放缓存补充了熔岩流表面变化、水体持久性、临时聚落演变及冰川雪盖监测等多元遥感事件,覆盖火山、洪水、城市扩张及冰雪范畴,充分体现了在环境动态监测领域的广泛适应性。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集。使用load_dataset('Shoozes/LFM-Orbit-SatData', 'default', split='train')获取单帧训练样本,指定'temporal_sft'配置则获取有序时序序列,选择'asset_metadata'以访问资产级元数据。为满足流式处理需求,可启用streaming=True参数,通过stream.take(3)快速预览前三条记录。数据存储结构清晰,图像存放于images/目录,帧采样产物位于frames/目录,所有路径均为仓库相对路径,便于跨环境迁移。空失败日志虽保留供审计,但不纳入数据集查看器配置,确保模型训练时的加载纯净性。
背景与挑战
背景概述
LFM-Orbit-SatData是由LFM Orbit与Liquid AI、DPhi Space Hackathon合作构建的地球观测卫星影像数据集,于2026年5月完成最新数据导出。该数据集以Sentinel-2多光谱影像为核心,聚焦于地表动态变化监测领域,旨在通过重标注与时间序列组织方式,为遥感智能解译提供高质量的训练样本。其核心研究问题在于如何利用多帧时序影像和多源元数据,提升模型在野火、火山活动、洪水淹没、城市扩张等任务上的泛化能力与场景理解水平。作为面向空间挑战赛事的开源数据资源,该数据集推动了卫星影像标注规范与模型微调范式的融合,对地球观测与人工智能交叉领域具有显著的示范与启发意义。
当前挑战
该数据集面临的主要挑战体现在:第一,所解决的领域问题涵盖多种复杂地表事件,如野火蔓延、火山地表变化、冰盖消长等,这些场景在空间分布、尺度与时序上高度不均匀,导致模型需具备跨场景知识迁移能力;第二,构建过程中,数据来源涉及多源缓存、回放缓存与手工标注的联动,为保证标注一致性,对重标签采用了SHA-256哈希复用与确定性启发式策略,但不同语义标签间的边界模糊(如‘野火’与‘火线’)仍需人工审查队列辅助判定;第三,帧抽取与临时文件管理需避免冲突与残留,对文件命名空间、导出清理与离线缩略图机制提出了严苛的工程要求。
常用场景
经典使用场景
LFM-Orbit-SatData数据集的核心价值在于为地球观测领域提供经过重新标注的Sentinel-2卫星影像监督微调训练数据。其经典使用场景聚焦于两类任务:一是基于单帧影像的即时分类与目标检测,利用265条图像级SFT行训练模型识别火山地表变化、火灾烧伤痕迹、洪水淹没范围等典型地物特征;二是利用33条时间序列SFT行构建时序分析模型,通过多帧有序影像捕捉地物动态演化规律,例如湖泊水体消退过程、植被季节性变迁或城市边界扩张轨迹。该数据集的多配置架构使得研究者可以灵活选取单帧或时序数据,适配ResNet、ViT、ConvNeXt等视觉骨干网络,或结合时序Transformer进行细粒度遥感变化检测,为卫星影像智能解译提供了标准化的训练基准。
解决学术问题
该数据集系统性地解决了遥感学界长期面临的地面真值标注稀缺与强时效性数据匮乏两大困境。通过为LFM Orbit平台采集的原始卫星影像提供高置信度、多维度的人类审查标签(包含质量打分、场景置信度评估及原因编码),数据集显著降低了模型训练过程中对昂贵人工标注的依赖。具体而言,它推动解决了三类核心学术问题:其一,基于稀疏标注的多标签遥感场景分类问题,覆盖火灾、火山活动、洪涝、城市变化等生态与地质事件;其二,时间序列遥感影像的变化检测与异常模式挖掘问题,通过时间戳配准的多帧数据支持因果分析与趋势预测;其三,小样本与域适应场景下的零样本迁移学习问题,其多样性场景(从北美火线到欧亚湖泊)为预训练模型提供了丰富的领域知识,加速了泛化能力的突破。这一成果为全球尺度环境监测的自动化与精细化提供了数据基石。
衍生相关工作
围绕LFM-Orbit-SatData已衍生出一系列推动遥感智能解译边界的前沿工作。数据集内置的多帧时序配置(temporal_sft)催生了基于时空注意力机制的变化检测架构,研究者在其基础上构建了融合Sentinel-2多光谱通道与时间维度的轻量级时序Transformer,实现了对火山喷发前兆迹线与洪水消退速率的动态建模。另一方向利用重标注资产文件(retagged_assets)构建了对比学习预训练流程,通过SHA-256哈希复用的145个图像标签与14个序列标签,显著提升了跨场景迁移学习效率,在夏威夷基拉韦厄火山与美国西海岸火灾的多源协同分析中取得突破。而审查队列(review_queue)中的人工审核提示数据,则为强化学习与人类反馈对齐(RLHF)在地球观测领域的首次应用提供了样本,推动了可信赖的卫星视觉语言模型的诞生。这些工作共同标志着遥感数据集从静态标注向动态认知范式的跃迁。
以上内容由遇见数据集搜集并总结生成



