K-Means GeoCentroids for DinoV2

github2025-10-26 更新2025-10-30 收录

下载链接：

https://github.com/aliaksandr960/dinov2_geocentroids_southamerica

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从南美洲地区2,000张航空影像中提取的约4,000,000个DinoV2特征，通过K-Means聚类算法生成的6,000个聚类中心点。这些中心点代表了在0.25米地面采样距离的遥感影像中常见的特征，如建筑物、道路、树木、森林、田野和水体等自然和人工地物。数据集可用于遥感图像分析和计算机视觉任务。

This dataset contains approximately 4,000,000 DinoV2 features extracted from 2,000 aerial images sourced from the South American region, alongside 6,000 cluster centroids generated via the K-Means clustering algorithm. These centroids represent common features in remote sensing imagery with a ground sampling distance of 0.25 meters, including both natural and man-made features such as buildings, roads, trees, forests, farmlands, and water bodies. This dataset can be applied to remote sensing image analysis and computer vision tasks.

创建时间：

2025-10-26

原始信息汇总

K-Means GeoCentroids for DinoV2 数据集概述

数据集简介

数据集名称：K-Means GeoCentroids for DinoV2
核心目标：探索自监督学习与人类感知的对齐程度
应用领域：遥感数据分析

数据内容

文件组成

inference.ipynb：包含推理代码的Jupyter笔记本
centroids_6k.npy：以NumPy数组格式存储的质心数据
color_map_rgb_6k.npy：质心ID到RGB颜色的映射数组
./examples：包含三个来自OpenAerialMap的示例图像

数据处理

输入文件使用GDAL进行重缩放和重投影
采用0.25米地面采样距离(GSD)的影像数据
数据来源：OpenAerialMap，覆盖南美洲地区

技术方法

特征提取

使用Meta DinoV2模型提取最后一层隐藏层特征
特征维度：768维
特征数量：约4,000,000个
数据来源：2,000张航空影像

聚类分析

使用K-Means聚类算法
聚类数量：6,000个独立簇
使用t-SNE将特征维度从768降至3维进行RGB颜色分组

识别能力

可识别地物类型

建筑物
道路和小径
树木和森林
田地
水体
特殊物体：山区巨石、农田植物模式

一致性表现

相同簇集在所有图像中表现一致
道路、建筑物和水体使用相同颜色表示

技术说明

未使用DinoV3的原因：Meta对其许可证增加了更多限制
卫星影像GSD范围：0.3-0.5米，统一重缩放至0.25米

搜集汇总

数据集介绍

构建方式

在遥感影像分析领域，数据集的构建往往依赖于对大规模特征的系统性提取与归纳。本数据集基于DinoV2自监督学习模型，从南美地区的2000张航空影像中提取约400万个特征向量，通过K-Means聚类算法将其划分为6000个代表性类别。原始影像数据来源于OpenAerialMap平台，经过GDAL工具进行空间参考系统统一与分辨率标准化处理，确保所有输入数据均重采样至0.25米地面采样距离。这种构建方式有效捕捉了特定地理尺度下的地物分布规律，为遥感影像语义理解提供了结构化特征表示。

特点

该数据集的核心特点体现在其空间语义的一致性表达。通过t-SNE降维技术将768维特征映射至RGB色彩空间，使得同类地物在不同影像中呈现稳定色彩表征。道路、建筑、水体等地物类别在聚类结果中展现出明确的视觉区分度，同时还能识别山体巨砾、农田植被纹理等特殊地物模式。所有聚类中心均以numpy数组格式存储，配套的色彩映射文件确保了特征可视化的一致性。这种设计既保留了自监督学习中的语义抽象能力，又适应了遥感影像特有的空间分布特性。

使用方法

针对遥感影像解译任务，本数据集提供了完整的特征工程解决方案。用户可通过附带的Jupyter Notebook脚本加载预训练的聚类中心，将待分析影像输入DinoV2模型提取特征后，与6000个聚类中心进行相似度匹配即可获得像素级分类结果。实际应用时需注意输入影像应统一至0.25米分辨率，并建议采用与训练数据相近的地理区域以确保特征匹配度。该方法特别适用于大范围地表覆盖监测、地物变化检测等场景，为传统遥感分析方法提供了基于自监督学习的替代路径。

背景与挑战

背景概述

K-Means GeoCentroids for DinoV2数据集诞生于2023年，由遥感技术与自监督学习交叉研究领域推动产生。该数据集基于Meta AI研发的DinoV2视觉基础模型，针对遥感影像分析场景进行专门优化。其核心研究问题聚焦于探索自监督学习特征在特定地理空间尺度下的可解释性与实用性，通过聚类方法将高维特征映射为人类可理解的语义类别。这一创新尝试为遥感影像的自动化解译提供了新范式，显著提升了地物识别效率与一致性。

当前挑战

该数据集面临的主要挑战体现在领域问题与构建过程两个维度。在领域层面，需要解决遥感影像中地物特征的尺度敏感性问题，确保在不同空间分辨率下保持特征一致性；同时需克服自然场景与遥感场景间的领域差异，使预训练特征有效迁移。构建过程中，面临大规模特征聚类的计算复杂度挑战，需平衡聚类数量与语义粒度；此外，地理坐标系统一与影像重投影带来的几何失真问题，以及开源数据许可协议的兼容性约束，都增加了数据集构建的技术难度。

常用场景

衍生相关工作

该数据集催生了多个经典研究方向，包括基于DinoV2特征的跨分辨率遥感适配方法、无监督地物分类框架优化、以及聚类中心迁移学习技术。相关研究进一步探索了不同地理区域和成像条件下的特征泛化能力，发展了动态聚类中心更新算法以适应季节变化。这些衍生工作共同构成了自监督遥感分析的技术体系，为后续GeoCLIP、SatMAE等地理空间基础模型提供了重要的方法论参考和评估基准。

数据集最近研究