LFM-Orbit-SatData

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/Shoozes/LFM-Orbit-SatData

下载链接

链接失效反馈

官方服务：

资源简介：

LFM Orbit SatData 是一个用于地球观测的开源数据集，由 LFM Orbit 为 Liquid AI 和 DPhi Space Hackathon 制作。该数据集包含多种配置，适用于不同的任务和数据类型。主要配置包括：单图像 SFT 训练行（`default`）、有序多帧 SFT 行（`temporal_sft`）、图像文件夹兼容的资产元数据（`asset_metadata`）、完整的重标签记录和源引用（`retagged_assets`）、完整的时间序列来源（`temporal_metadata`）、人工审查提示和引用（`review_queue`）以及仅包含元数据的任务行（`mission_metadata`）。当前导出数据包括 200 个 Orbit 样本、15 个时间序列、185 个仅元数据的任务行等。数据集适用于卫星图像分析、地球观测、时间序列分析等任务。数据加载支持标准模式和流式模式。

LFM Orbit SatData is an open-source dataset for Earth observation, created by LFM Orbit for Liquid AI and DPhi Space Hackathon. The dataset includes multiple configurations suitable for different tasks and data types. Main configurations include: single-image SFT training rows (`default`), ordered multi-frame SFT rows (`temporal_sft`), image-folder-compatible asset metadata (`asset_metadata`), complete relabeling records and source citations (`retagged_assets`), complete temporal series sources (`temporal_metadata`), manually reviewed prompts and citations (`review_queue`), and mission rows containing only metadata (`mission_metadata`). The current exported data includes 200 Orbit samples, 15 temporal series, 185 mission rows with only metadata, etc. The dataset is suitable for tasks such as satellite image analysis, Earth observation, and temporal series analysis. Data loading supports both standard and streaming modes.

创建时间：

2026-04-28

原始信息汇总

LFM Orbit SatData 数据集概述

基本信息

许可协议: MIT
数据集名称: LFM Orbit SatData
数据集大小: 少于 1000 个样本
标签: 卫星图像、地球观测、Sentinel-2、LFM Orbit、Liquid AI、DPhi Space Hackathon

数据集描述

本数据集是由 LFM Orbit 为 Liquid AI x DPhi Space Hackathon 产生的重新标注的地球观测训练数据。

数据集配置

配置名称	数据文件	用途
`default`	`training_assets.jsonl`	单图像 SFT 训练行
`temporal_sft`	`training_temporal_sequences.jsonl`	有序多帧 SFT 训练行
`asset_metadata`	`metadata.jsonl`	与 ImageFolder 兼容的资产元数据
`retagged_assets`	`retagged_assets.jsonl`	完整的重新标注记录和来源引用
`temporal_metadata`	`temporal_sequences.jsonl`	完整的时间序列来源信息
`review_queue`	`review_queue.jsonl`	人工审核提示和引用
`mission_metadata`	`mission_metadata.jsonl`	仅含元数据的评分任务行

当前导出统计

200 个导出的 Orbit 样本
11 个重放缓存行
15 个时间序列
163 个去重的图像/帧资产
185 个仅含元数据的任务行
163 个复用的现有图像标签
15 个复用的现有时间序列标签

重放缓存示例

莫纳罗亚火山熔岩流地表变化（火山地表变化）
乌尔米耶湖持续水体（洪水范围）
黑岩城临时定居点（城市扩张）
拉海纳山火烧伤疤痕恢复（野火）
卡霍夫卡水库水位下降（洪水范围）
基拉韦厄火山喷发（火山地表变化）
米德湖海岸线恢复（洪水范围）
格陵兰冰/雪范围（冰雪范围）

数据存储结构

图像存储于 images/ 目录
采样帧存储于 frames/ 目录
帧提取按视频 SHA-256 命名空间划分

数据加载示例

python from datasets import load_dataset

加载默认配置

assets = load_dataset("Shoozes/LFM-Orbit-SatData", split="train")

加载时间序列配置

temporal = load_dataset("Shoozes/LFM-Orbit-SatData", "temporal_sft", split="train")

加载资产元数据

metadata = load_dataset("Shoozes/LFM-Orbit-SatData", "asset_metadata", split="train")

加载任务元数据

missions = load_dataset("Shoozes/LFM-Orbit-SatData", "mission_metadata", split="train")

流式加载

stream = load_dataset("Shoozes/LFM-Orbit-SatData", split="train", streaming=True) first_rows = list(stream.take(3))

搜集汇总

数据集介绍

构建方式

LFM-Orbit-SatData数据集由LFM Orbit团队针对Liquid AI与DPhi太空黑客马拉松赛事精心构建，其核心设计围绕多模态、多任务的地球观测训练数据展开。数据集以JSONL格式存储，内部组织为七个独立配置，涵盖单图像监督微调（SFT）样本、时序序列帧、资产元数据、重标注记录以及任务元数据等。构建过程中采用了严格的去重与验证流程，通过视频SHA-256哈希命名空间避免帧覆盖，并在每次导出前清除旧样本，确保数据新鲜与一致性。当前版本包含200个Orbit样本、163个去重图像资产及15条时序序列，并集成了从Sentinel-2卫星影像中提取的SWIR/NIR/Red和真彩色等多种光谱波段。

特点

该数据集展现出多重显著特性。在数据多样性方面，它不仅涵盖火山地表变化、洪水范围、城市扩张、野火烧伤恢复及水库消退等典型地球观测场景，还通过时序序列配置保留了多帧间的空间与时间依赖关系，为动态监测任务提供支撑。在数据质量控制上，数据集引入了人工审核队列与重标注记录，确保标注的可靠性；同时，影像与帧的存储路径分离，并保留空的失败日志供审计。此外，数据集支持离线上下文缩略图以减少远程请求延迟，并巧妙利用现有标签复用机制，有效降低重复标注成本。这些设计使其成为面向遥感图像理解与时空推理的优质资源。

使用方法

使用LFM-Orbit-SatData数据集可通过Hugging Face Datasets库便捷加载。开发者能够按需选择不同配置：例如，使用load_dataset('Shoozes/LFM-Orbit-SatData', split='train')获取单图像SFT样本；通过指定config参数为'temporal_sft'加载时序序列数据；调用'asset_metadata'、'mission_metadata'等配置访问资产元数据或任务得分记录。对于大规模或实时处理场景，数据集支持流式加载模式，只需设置streaming=True即可高效迭代。最终，研究者可基于单帧图像进行视觉问答或目标检测微调，也可利用时序序列开展变化检测与事件预测等进阶任务。

背景与挑战

背景概述

LFM-Orbit-SatData数据集由LFM Orbit团队为Liquid AI与DPhi太空黑客马拉松所创建，旨在推动地球观测领域基于哨兵二号（Sentinel-2）影像的语义理解与时空分析。该数据集以单帧与多时相序列两种模式组织，覆盖火山地表变化、洪水范围监测、城市扩张追踪、野火烧痕恢复及冰雪范围变化等关键地质与环境议题。通过整合人工标注、元数据与重标注记录，数据集为遥感图像的多模态微调（SFT）提供了高质量的训练素材，显著降低了从卫星影像到决策支持的转化门槛。其发布标志着开源遥感数据集在结构化序列标注与可复用地观测流程方面迈出了重要一步，对推动机器学习在环境监测与灾害评估中的实际应用具有示范意义。

当前挑战

该数据集所解决的核心领域挑战在于将动态演化的自然现象（如火山活动、水库干涸）从静态影像中精准分离并赋予时序上的因果解释，这一问题长期困扰着传统基于单帧的遥感分析方法。在构建过程中，团队面临多源异构数据（视频帧、元数据、外部图源）的整合难题，需通过视频SHA-256命名空间化避免文件覆盖，并引入重标签清理机制以剔除陈旧生成样本。此外，如何平衡单帧与时间序列数据在模型训练中的权重，以及如何在有限的200条样本中保证标签的一致性与可审计性，仍是该数据集在扩展性与泛化性上的潜在挑战。

常用场景

经典使用场景

LFM-Orbit-SatData数据集面向地球观测领域，基于Sentinel-2卫星影像，提供了针对地表变化检测与灾害监测的精细化标注。其经典使用场景涵盖火山活动、洪水范围、野火烧痕、城市扩张及冰雪消融等动态地表事件的智能识别与定量分析。通过单帧图像与时间序列两种配置，研究者可灵活构建模型，用于像素级语义分割、变化检测以及时序特征建模，尤其适合监督微调（SFT）范式下的遥感大模型训练。数据集中包含的多源标注信息，如目标边界框、任务意图文本及人工审核记录，为复杂场景下的跨模态推理提供了坚实的基准。

衍生相关工作

LFM-Orbit-SatData的发布催化了一系列全新的研究方向与衍生工作。其时间序列配置推动了时序视觉大模型在遥感领域的适配，促进了基于Transformer的时空融合架构的涌现，如将卫星视频帧序列与注记对齐的时序微调策略。数据集中包含的人工审核队列与重标注记录，催生了面向标签质量评估的辅助工具与主动学习算法。此外，其元数据中的边界框意图与任务文本吸引了多模态视觉语言模型的研究者，使得地球观测任务开始迈向自然语言驱动的零样本泛化。这些衍生工作共同拓展了遥感人工智能的边界，使之从单一的图像分类向更具交互性和可解释性的方向演进。

数据集最近研究