five

nesteo-prototype

收藏
Hugging Face2025-05-22 更新2025-05-23 收录
下载链接:
https://huggingface.co/datasets/nesteo-datasets/nesteo-prototype
下载链接
链接失效反馈
官方服务:
资源简介:
NestEO是一个支持通用多尺度多模态地球观测工作流程的分层、分辨率对齐、基于UTM的嵌套网格数据集框架。它由多种地球观测源构建而成,并丰富了土地覆盖、气候区域和人口等元数据,使得AI4EO的可扩展、代表性和渐进式采样成为可能。NestEO具有不同的网格级别,包括120000米、12000米、2400米、1200米、600米、300米和150米。网格元数据包括ESA WorldCover比例、GHSL、Köppen气候等。当前数据集包括Wyvren Hyperspectral和Satellogic Newsat。数据集覆盖范围为UTM 1N-60N、1S-60S以及北极/南极地区。支持的格式包括Parquet、GeoParquet,计划支持Zarr格式。数据集遵循CC-BY-4.0许可证。

NestEO is a hierarchical, resolution-aligned, UTM-based nested grid dataset framework that supports general-purpose multi-scale and multi-modal Earth observation workflows. Constructed from diverse Earth observation sources, it is enriched with metadata including land cover, climatic zones and population data, enabling scalable, representative and progressive sampling for AI4EO. NestEO features multiple grid levels, including 120000m, 12000m, 2400m, 1200m, 600m, 300m and 150m. Grid metadata covers ESA WorldCover proportions, GHSL, Köppen climate zones and other related information. The current dataset includes Wyvren Hyperspectral and Satellogic Newsat. The dataset covers UTM zones 1N to 60N, 1S to 60S, as well as the Arctic and Antarctic regions. Supported formats include Parquet and GeoParquet, with Zarr format planned for future support. The dataset is licensed under CC-BY-4.0.
创建时间:
2025-05-12
原始信息汇总

NestEO Prototype 数据集概述

基本信息

  • 名称: NestEO Prototype
  • 语言: 英语 (en)
  • 数据规模: 10M < n < 100M
  • 多语言性: 单语言 (monolingual)
  • 标签: ai4eo, earth-observation, remote-sensing, multimodal, grids
  • 许可证: CC-BY-4.0
  • 任务类别: 图像分割, 图像分类
  • 配置:
    • grids_selected_1200m (默认配置)
      • 数据文件: grids/grids_selected/selected_1200m_grid.parquet

数据集框架

  • 网格级别: 120000m, 12000m, 2400m, 1200m, 600m, 300m, 150m
  • 网格元数据: ESA WorldCover 比例, GHSL, Köppen Climate
  • 当前样本数据集: Wyvren Hyperspectral, Satellogic Newsat, Sentinel-2, Sentinel-1, Sentinel-3
  • 区域: UTM 1N–60N, 1S–60S 和极地北/南
  • 格式: Parquet, GeoParquet, Zarr (计划中)

目录结构

text NestEO/ ├── grids/ # UTM对齐的分层网格Parquet文件 ├── metadata_current/ # 预计算比例: 土地覆盖, 计划中(气候, 区域, 生物群落, ghsl) ├── datasets_EO/ # 裁剪的EO图像瓦片 (Newsat, Sentinels, 计划中(Landsat, HLS, MODIS等)) ├── datasets_AUX/ # 辅助数据集计划中(DEM, 土地覆盖, OSM) ├── embeddings/ # 预计算模型嵌入计划中 (如DINOv2, SigLIP, SAM, SAM2) ├── index_structure/ # 瓦片到超级瓦片, 源到瓦片和瓦片ID索引映射 └── versions/ # 版本控制快照信息

数据集结构

  • 每个瓦片包含唯一的tile_id和空间几何。
  • 按区域目录分组: grid_2400m/grid_37N_2400.parquet

使用方式

  1. 从Github安装并创建自己的嵌套网格结构。
  2. 从grids/加载网格 (如grid_1200m.parquet)。
  3. 与元数据连接 (如metadata_lc.parquet) 在tile_id上。
  4. 应用空间或语义过滤 (如仅城市, 特定日期)。
  5. 选择并加载配对的EO图像和源文件夹。

当前状态

  • 原型版本: 展示核心设计原则, 包括分层UTM对齐网格, 模块化目录布局, 结构化GeoParquet元数据, 和可扩展EO数据摄入兼容性。
  • 限制:
    • 仅包含少量EO模态 (如Sentinel-2, Sentinel-3, Satellogic, Wyvren) 样本规模。
    • 更多EO内容层 (图像, 土地覆盖, 辅助层等) 将在后续更新中添加。
    • 跨模态配对, 辅助层 (如DEM, OSM), 和全分辨率覆盖正在开发中。
    • 并非所有网格级别都填充了图像; 部分网格层主要用于支持对齐, 配对和演示目的。

路线图

  • v1版本将包括:
    • 12+ EO模态 (光学, SAR, 高光谱, 大气, 热)
    • 超过250,000个地理分布瓦片跨多个网格级别
    • 在选定位置的配对图像样本, 支持多模态学习
    • 扩展的元数据层包括ESA WorldCover, Copernicus DEM, Köppen-Geiger区域, 和GHSL派生的人口类别
    • 预计算模型嵌入 (如DINOv2, SigLIP, SAM2) 在瓦片级粒度
    • 完全兼容基于云的过滤, 延迟加载, 和Hugging Face数据集

贡献

欢迎在以下方面贡献:

  • 区域特定或分辨率特定的图像
  • 辅助或注释层
  • 网格级元数据丰富
  • 基准和模型评估

引用

待定 – 官方发布时提供。

搜集汇总
数据集介绍
main_image_url
构建方式
在遥感科学领域,NestEO-prototype数据集采用分层嵌套网格框架构建,基于UTM投影系统将地球表面划分为七个不同分辨率的网格层级,涵盖120000米至150米的空间尺度。该数据集通过整合多源对地观测数据,包括高光谱影像、合成孔径雷达和光学遥感资料,并融入ESA WorldCover土地覆盖、GHSL人口分布以及Köppen气候分区等元数据层。数据以Parquet和GeoParquet格式存储,通过模块化目录结构实现空间对齐与元数据关联,支持跨尺度遥感分析。
使用方法
使用者可通过GitHub获取网格生成工具链,加载指定层级的网格文件后,基于tile_id与元数据表进行空间连接。利用ESA土地覆盖比例等字段实施语义过滤,可快速定位特定地类区域。数据集支持按时间序列、空间范围或传感器类型筛选配对影像,配合Zarr格式实现流式加载。该框架为多尺度地物分类、变化检测及跨模态融合任务提供标准化数据接口,适用于云端分布式处理环境。
背景与挑战
背景概述
地球观测领域正经历数据爆炸式增长,亟需标准化框架整合多源遥感数据。NestEO原型数据集由MBZUAI-ORYX团队于2024年提出,采用分层UTM网格架构,覆盖120000米至150米七级分辨率,融合Sentinel系列卫星、高光谱等多模态数据。该框架通过地理空间对齐与元数据增强,为AI4EO研究提供可扩展的数据基底,推动跨尺度环境监测与全球变化分析的方法创新。
当前挑战
构建过程中面临多源遥感数据时空配准的复杂性,需解决不同传感器分辨率与坐标系的统一难题。在领域应用层面,数据集需应对多模态数据融合的语义鸿沟,以及从像素级分类到区域理解的尺度转换挑战。当前原型版本尚存数据覆盖不完整、辅助图层缺失等限制,亟待扩展至全分辨率网格与跨模态配对样本。
常用场景
经典使用场景
在遥感与地球观测领域,NestEO数据集通过分层UTM对齐网格结构,为多尺度地理空间分析提供了标准化框架。其经典应用体现在支持跨分辨率模态的联合建模,例如将1200米网格的Sentinel-2光学影像与300米网格的Sentinel-1雷达数据对齐,实现地表覆盖变化的协同监测。这种层级化设计使研究者能够系统性地探索从宏观气候带分布到微观城市建筑形态的地理现象。
解决学术问题
该数据集有效解决了地球观测领域中多源异构数据融合的学术挑战。通过统一的空间参考系与标准化元数据结构,消弭了不同传感器、分辨率及时相数据间的语义隔阂。其嵌入的ESA世界覆盖比例与 Köppen气候分区元数据,为量化人类活动与自然环境相互作用提供了基准,显著推进了地理空间表征学习与可解释AI在遥感领域的理论发展。
实际应用
实际部署中,NestEO支撑着智慧城市管理、农业监测与灾害响应等关键场景。城市规划部门可基于GHSL人口密度元数据识别建成区扩张模式,农业机构能通过多时相影像追踪作物生长周期。在应急响应中,结合Sentinel系列数据的快速更新能力,该框架可实现洪涝范围动态评估与灾损精准测算,为可持续发展目标提供决策支持。
数据集最近研究
最新研究方向
在遥感与地球观测领域,NestEO原型数据集正推动多模态人工智能研究的前沿发展。该框架通过分层UTM网格结构整合了高光谱、多光谱与合成孔径雷达等多源数据,为跨尺度环境监测提供了统一基准。当前研究聚焦于利用其网格化元数据实现动态土地覆盖分类与气候变化响应分析,同时结合DINOv2等预训练模型嵌入技术,探索自监督学习在遥感影像解译中的新范式。随着12种地球观测模态的持续扩展,该数据集正成为构建下一代地理空间基础模型的关键基石,显著提升了全球尺度环境建模的可复现性与计算效率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作