Quasara-MajorTOM-Europe-SigLIP
收藏Hugging Face2024-08-21 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/quasara-io/Quasara-MajorTOM-Europe-SigLIP
下载链接
链接失效反馈官方服务:
资源简介:
该数据集源自欧洲航天局通过Major-TOM提供的高分辨率欧洲卫星图像。这些图像经过欧洲区域的筛选并使用'Synapsis'引擎和OPENCLIP_SIGLIP_400M模型进行矢量化处理。数据集主要包括两个文件:'Metadata.parquet'用于将矢量嵌入与Major TOM图像关联,以及'Embedding.dat'包含实际的矢量嵌入。该数据集适用于多种应用,如数据探索、无监督聚类以及基于矢量嵌入构建聊天机器人。此外,它还可用于监测土地使用变化、精准农业和气候研究。
This dataset originates from high-resolution European satellite imagery provided by the European Space Agency via Major-TOM. These images have been filtered for the European region and vectorized using the 'Synapsis' engine and the OPENCLIP_SIGLIP_400M model. The dataset primarily consists of two files: 'Metadata.parquet', which is used to associate vector embeddings with Major TOM imagery, and 'Embedding.dat', which contains the actual vector embeddings. This dataset is suitable for a variety of applications, such as data exploration, unsupervised clustering, and building chatbots based on vector embeddings. In addition, it can also be used for land use change monitoring, precision agriculture, and climate research.
创建时间:
2024-08-08
原始信息汇总
MajorTOM-Europe 数据集概述
数据集详情
- 数据源: Major-TOM/Core-S2L2A
- 区域: 覆盖整个欧洲,坐标范围为 box(5.98865807458, 47.3024876979, 15.0169958839, 54.983104153)
- 日期范围: 从2020年1月1日到2025年1月1日
- 云覆盖率: 0% 到 10%
- 无数据: 0.0%
数据集描述
- Metadata.parquet 文件: 显示嵌入向量与 Major TOM 图像之间的关系,便于快速链接到其他 Major TOM 数据集。
- Embedding.dat 文件: 包含由 Quasara 计算的向量嵌入。
数据处理步骤
- 下载 Major-TOM 数据集并过滤出显示欧洲的图像。
- 使用 OPENCLIP_SIGLIP_400M 模型和 Synapsis 向量化引擎对整个 Major-TOM 图像数据进行向量化。
- 没有进行预训练、标注或微调来准备 Major TOM 数据集的向量嵌入。
应用场景
- 数据探索: 使用文本提示和图像提示进行数据探索。
- 无监督聚类: 对图像进行无监督聚类。
- 构建RAG或聊天机器人: 基于向量嵌入构建相关应用。
数据集结构
Metadata.parquet
| 列名 | 解释 |
|---|---|
| grid_cell | Major TOM 网格中的坐标,用于快速链接到其他 Major TOM 数据集。 |
| grid_row_u | Major TOM 网格中的行标识符,用于链接目的。 |
| grid_row_r | Major TOM 网格中的另一个行标识符,用于链接目的。 |
| centre_lat | 嵌入计算图像部分的中心纬度。 |
| centre_lon | 嵌入计算图像部分的中心经度。 |
| timestamp | 原始产品的时间戳,格式为 %Y%m%dT%H%M%S。 |
| dat_row | 与数据条目关联的 .dat 文件中的行号。 |
| unique_id | 结合 grid_cell、timestamp 和其他参数的唯一标识符。 |
| image_type | 每个图像被分割成70个部分并进行向量化。 |
| coordinates | 定义被向量化的图像部分的坐标。全图像没有坐标。 |
| embedding_file | 存储嵌入向量的对应文件。 |
Embedding.dat
| 列名 | 解释 |
|---|---|
| embeddings | 从图像/图像部分计算出的向量。 |
相关数据集
- 相关数据集: MajorTOM-Europe 数据集与原始的 S2L2A 数据集紧密相关。
功能特点
- 文本与视觉数据的关联: 利用 CLIP 的能力,使文本描述与视觉数据相关联,实现更直观的搜索和分析。
应用领域
- 土地利用和土地覆盖变化监测:
- 跟踪森林砍伐
- 观察城市扩张
- 监测水体动态
- 发现各种物体,如机场、高尔夫球场到风电场
- 精准农业:
- 分析作物健康
- 预测产量
- 规划收获
- 气候研究:
- 研究气候模式
- 监测区域和地方层面的变化和影响
搜集汇总
数据集介绍

构建方式
Quasara-MajorTOM-Europe-SigLIP数据集的构建过程始于从欧洲航天局提供的Major-TOM卫星图像库中筛选出覆盖欧洲区域的高分辨率图像。随后,利用Quasara的向量化引擎'Synapsis'结合OpenCLIP SigLIP模型,对这些图像进行向量嵌入提取。整个过程未进行任何预训练、标注或微调,确保了数据的原始性和广泛适用性。
特点
该数据集的核心特点在于其高精度的向量嵌入,这些嵌入通过先进的OpenCLIP SigLIP模型生成,能够有效关联文本描述与视觉数据。数据集覆盖了欧洲广泛的区域,提供了丰富的地理信息,适用于多种高级分析任务。此外,数据集的元数据文件与嵌入文件通过特定列进行链接,便于用户进行复杂的数据探索和分析。
使用方法
Quasara-MajorTOM-Europe-SigLIP数据集的使用方法多样,主要包括通过文本提示进行数据探索、图像提示的无监督聚类、构建检索增强生成(RAG)系统或开发基于向量嵌入的聊天机器人。用户可以利用提供的元数据和嵌入文件,通过特定的脚本如read_dataset.py进行数据加载和处理,进而应用于土地覆盖变化监测、精准农业分析及气候研究等多个领域。
背景与挑战
背景概述
Quasara-MajorTOM-Europe-SigLIP数据集由Quasara团队基于欧洲航天局提供的Major-TOM卫星图像数据构建,旨在通过先进的向量化引擎Synapsis提取高分辨率卫星图像的向量嵌入。该数据集的核心研究问题在于如何利用OpenCLIP SigLIP模型将卫星图像与文本描述关联,从而支持零样本分类任务。数据集覆盖了欧洲地区的广泛地理坐标,时间跨度为2020年至2025年,云覆盖率控制在10%以内。这一数据集为土地利用变化监测、精准农业和气候研究等领域提供了强大的数据支持,推动了遥感图像分析与自然语言处理的交叉研究。
当前挑战
Quasara-MajorTOM-Europe-SigLIP数据集在构建与应用中面临多重挑战。首先,卫星图像数据的预处理和向量化过程需要处理海量数据,计算资源消耗巨大,且需确保向量嵌入的准确性和一致性。其次,尽管OpenCLIP SigLIP模型在文本-图像关联任务中表现出色,但其在遥感图像领域的泛化能力仍需进一步验证。此外,数据集的零样本分类任务要求模型能够在不依赖标注数据的情况下完成复杂的地理场景识别,这对模型的鲁棒性和适应性提出了更高要求。最后,如何将向量嵌入与具体应用场景(如土地利用监测、精准农业)有效结合,仍需探索更高效的算法和工具支持。
常用场景
经典使用场景
Quasara-MajorTOM-Europe-SigLIP数据集在零样本分类任务中展现了其独特的优势。通过使用OpenCLIP SigLIP模型生成的向量嵌入,研究人员能够在不依赖预定义标签的情况下,对欧洲地区的高分辨率卫星图像进行高效分类。这种能力使得该数据集在遥感图像分析、地理信息系统等领域中具有广泛的应用前景。
解决学术问题
该数据集解决了遥感图像分析中的关键问题,特别是在缺乏标注数据的情况下,如何有效提取图像特征并进行分类。通过引入先进的向量嵌入技术,Quasara-MajorTOM-Europe-SigLIP为研究人员提供了一种无需大量标注数据的解决方案,极大地推动了遥感图像自动分类技术的发展。
衍生相关工作
基于Quasara-MajorTOM-Europe-SigLIP数据集,许多经典研究工作得以展开。例如,研究人员利用该数据集开发了基于文本提示的图像检索系统,进一步提升了遥感图像的搜索效率。此外,该数据集还被用于构建无监督聚类模型,为遥感图像的自动分类和分割提供了新的思路。
以上内容由遇见数据集搜集并总结生成



