five

Core-S1RTC-SSL4EO

收藏
Hugging Face2024-12-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Major-TOM/Core-S1RTC-SSL4EO
下载链接
链接失效反馈
官方服务:
资源简介:
Core-S1RTC-SSL4EO数据集是一个基于Sentinel-1雷达数据集的嵌入数据集,包含36,748,875个嵌入向量。这些嵌入向量是通过SSL4EO-ResNet50-MOCO模型从Major TOM的Core-S1RTC数据集中提取的。数据集的每个样本包含多个字段,如唯一ID、嵌入向量、网格单元、产品ID、时间戳、中心纬度和经度、几何形状等。数据集的目的是提供一种高效的方式来浏览和导航大规模的地球观测数据,减少存储和计算需求。数据集的生成和发布是由CloudFerro和欧洲空间局(ESA)的Φ-lab合作完成的,使用了GPU加速的计算实例。
创建时间:
2024-11-30
原始信息汇总

Core-S1RTC-SSL4EO 数据集概述

基本信息

  • 数据集名称: Core-S1RTC-SSL4EO
  • 许可协议: cc-by-sa-4.0
  • 标签:
    • embeddings
    • earth-observation
    • remote-sensing
    • sentinel-1
    • sar
    • radar
    • satellite
    • geospatial
    • satellite-imagery
  • 数据规模: 10M<n<100M
  • 配置:
    • 配置名称: default
    • 数据文件: embeddings/*.parquet

数据集详情

  • 模态: Sentinel-1 RTC
  • 嵌入数量: 36,748,875
  • 感知类型: SAR
  • 总评论: General-Purpose Global
  • 源数据集: Core-S1RTC
  • 源模型: SSL4EO-ResNet50-MOCO
  • 数据大小: 332.5 GB

内容字段

字段名 类型 描述
unique_id string 由几何、时间、product_id和嵌入模型生成的哈希值
embedding array 原始嵌入数组
grid_cell string Major TOM 单元格
grid_row_u int Major TOM 单元格行
grid_col_r int Major TOM 单元格列
product_id string 原始产品的ID
timestamp string 样本的时间戳
centre_lat float 片段中心的纬度
centre_lon float 片段中心的经度
geometry geometry 片段的多边形足迹 (WGS84)
utm_footprint string 片段的多边形足迹 (图像 UTM)
utm_crs string 原始产品的CRS
pixel_bbox bbox 片段的边界框 (像素)

输入数据

  • 数据源: Sentinel-1 RTC 雷达数据集,全球覆盖
  • 样本来源: MajorTOM Core-S1RTC
  • 图像输入尺寸: 224 x 224 像素,目标重叠: 10%,border_shift: True

模型

示例使用

python from datasets import load_dataset dataset = load_dataset("Major-TOM/Core-S1RTC-SSL4EO")

生成自己的 Major TOM 嵌入

作者

  • Mikolaj Czerkawski (Φ-lab, European Space Agency)
  • Marcin Kluczek (CloudFerro)
  • Jędrzej S. Bojanowski (CloudFerro)

开放访问手稿

搜集汇总
数据集介绍
main_image_url
构建方式
Core-S1RTC-SSL4EO数据集的构建基于全球覆盖的Sentinel-1雷达数据集,所有样本来源于MajorTOM Core-S1RTC数据集。通过使用SSL4EO-ResNet50-MOCO模型的图像编码器,从224x224像素的图像中提取嵌入向量。每个样本的嵌入向量与几何信息、时间戳、产品ID等元数据相结合,生成独特的哈希ID,确保数据的唯一性和可追溯性。
特点
该数据集的显著特点在于其全球覆盖性和高密度嵌入向量,共包含36,748,875个嵌入向量,适用于广泛的地球观测任务。数据集的嵌入向量通过预训练的深度神经网络提取,具有语义抽象能力,能够显著降低存储和计算需求。此外,数据集的结构化设计使得每个样本都包含详细的地理和时间信息,便于进行空间和时间分析。
使用方法
使用Core-S1RTC-SSL4EO数据集时,用户可以通过HuggingFace的datasets库加载数据集,使用简单的Python脚本即可访问嵌入向量和相关元数据。数据集的嵌入向量可用于多种地球观测任务,如图像分类、目标检测和语义分割等。此外,用户还可以利用Major TOM提供的嵌入生成工具,自行生成类似的嵌入向量,进一步扩展数据集的应用范围。
背景与挑战
背景概述
Core-S1RTC-SSL4EO数据集是由Φ-lab(欧洲空间局ESA)与CloudFerro合作开发,旨在为地球观测数据提供开放且免费的向量化扩展。该数据集基于Sentinel-1雷达数据,利用SSL4EO-ResNet50-MOCO模型提取了36,748,875个嵌入向量,覆盖全球范围。其核心研究问题在于如何高效地从大规模地球观测数据中提取语义抽象,以降低存储和计算需求。该数据集的发布不仅推动了地球观测领域的标准化进程,还为全球范围内的地理空间数据分析提供了新的工具和方法。
当前挑战
Core-S1RTC-SSL4EO数据集在构建过程中面临多项挑战。首先,如何从全球覆盖的Sentinel-1雷达数据中高效提取嵌入向量,确保数据的完整性和一致性,是一个技术难题。其次,由于地球观测数据的复杂性和多样性,模型在不同地理区域的泛化能力需要进一步验证。此外,数据集的存储和计算需求巨大,如何在有限的资源下实现高效处理和分发也是一大挑战。最后,如何确保数据集的开放性和易用性,使其能够广泛应用于不同领域的研究,也是该数据集面临的重要问题。
常用场景
经典使用场景
Core-S1RTC-SSL4EO数据集在遥感领域中具有广泛的应用,特别是在地球观测数据的特征提取与分析方面。该数据集通过使用预训练的SSL4EO-ResNet50-MOCO模型,从Sentinel-1雷达数据中提取了大量的嵌入向量,这些向量可以用于多种任务,如地物分类、变化检测和灾害评估。其高维度的嵌入特征为遥感图像的语义理解提供了强有力的支持,使得研究人员能够在全球范围内进行高效的地理空间分析。
衍生相关工作
Core-S1RTC-SSL4EO数据集的发布催生了一系列相关研究工作,特别是在遥感图像的语义分割和变化检测领域。许多研究者利用该数据集进行模型优化和算法改进,进一步提升了遥感图像分析的精度和效率。此外,该数据集还为全球范围内的地理空间数据共享和标准化提供了范例,推动了地球观测数据的开源和开放科学的发展。
数据集最近研究
最新研究方向
在地球观测领域,Core-S1RTC-SSL4EO数据集的最新研究方向主要集中在利用预训练的深度神经网络模型提取高维特征嵌入,以实现对大规模地球观测数据的语义抽象。该数据集通过Sentinel-1雷达数据的全局覆盖,结合SSL4EO-ResNet50-MOCO模型,生成了超过3600万条嵌入向量,极大地降低了存储和计算需求。这一研究不仅推动了地球观测数据的智能化处理,还为全球范围内的地理空间分析提供了标准化的解决方案。此外,该数据集的发布与欧洲空间局(ESA)和CloudFerro的合作密切相关,标志着地球观测数据处理技术在开放性和标准化方面的重要进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作