Mars-Global-Geolocalization

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/SUSTech/Mars-Global-Geolocalization

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是MarsRetrieval基准测试的Task 3，旨在评估视觉语言模型在火星地理空间发现任务上的性能。数据集模拟行星级发现任务，通过在全球CTX镶嵌图中定位科学概念，包含超过140万张CTX图像块。地面真实参考点来自五种火星地貌的全球科学目录：冲积扇、冰川状形态、滑坡、坑锥和雅丹地貌。任务形式包括文本到图像和图像到图像检索，模型需要从全局索引中检索出最可能的候选图像块。评估采用AUPRC（精确率-召回率曲线下面积）和Optimal F1@K*指标，以应对正样本极端稀疏的情况。该数据集适用于多模态检索任务，特别是行星级地理空间分布估计。

创建时间：

2026-02-10

搜集汇总

数据集介绍

构建方式

在行星科学领域，大规模地理定位任务对理解天体表面特征至关重要。Mars-Global-Geolocalization数据集的构建依托于覆盖火星全球的高分辨率CTX影像镶嵌图，其中包含超过140万张影像切片。数据集的真值参考点来源于已发布的全球科学目录，系统性地整合了五种典型火星地貌的坐标信息，包括冲积扇、冰川状形态、滑坡、坑锥和雅丹地貌。这种构建方式确保了地理定位任务在行星尺度上的科学严谨性与数据完整性。

特点

该数据集专注于行星尺度的地理定位检索，其核心特点在于模拟了极端稀疏正样本下的科学发现场景。数据集支持文本到图像与图像到图像的双向检索任务，评估指标采用AUPRC和最优F1@K*，旨在量化模型对全球分布特征的估计能力，而非简单的排序准确性。这种设计使得数据集能够有效评估视觉语言模型在复杂地理空间环境中的泛化与推理性能。

使用方法

研究人员可通过Hugging Face的datasets库直接加载该数据集，便捷地访问其结构化数据。为遵循标准评估协议，建议用户参考官方文档中详述的检索中心化流程与评估脚本，以确保实验的可复现性与结果可比性。该数据集主要服务于视觉语言模型在行星科学领域的基准测试，为地理空间检索算法的开发与验证提供了关键资源。

背景与挑战

背景概述

随着深空探测技术的飞速发展，火星作为地球的近邻行星，其地表形态的识别与定位已成为行星科学和遥感信息处理领域的前沿课题。Mars-Global-Geolocalization数据集由南方科技大学的研究团队于2026年构建，作为MarsRetrieval基准的第三项任务，旨在评估视觉-语言模型在行星尺度地理空间检索中的性能。该数据集聚焦于从全球CTX镶嵌图中定位五种典型火星地貌，包括冲积扇、冰川状形态、滑坡、坑锥和雅丹地貌，其核心研究问题在于解决跨模态检索在极端稀疏正样本下的地理空间关联挑战，为行星科学中的自动地貌发现提供了重要的数据支撑。

当前挑战

该数据集致力于解决行星尺度地理空间检索的挑战，即在覆盖超过140万CTX图块的全球镶嵌图中，精准定位稀疏分布的科学概念。由于正样本极度稀疏，传统基于Top-K准确率的评估方法失效，需采用AUPRC和最优F1@K*等指标来量化分布估计性能。在构建过程中，研究人员面临整合多源全球科学编目的难题，需确保不同地貌类型坐标的准确性与一致性，同时设计合理的空间容差半径以平衡检索精度与召回率，这些挑战共同塑造了数据集在推动跨模态检索技术向行星科学应用拓展中的独特价值。

常用场景

经典使用场景

在行星科学领域，火星全球地质定位数据集为评估视觉语言模型在跨模态检索任务中的性能提供了基准平台。该数据集通过模拟行星尺度的科学概念定位，要求模型从覆盖火星全球的超过140万张CTX影像瓦片中，精准检索与特定地质形态相关的图像或文本描述。这一经典使用场景不仅测试了模型处理大规模地理空间数据的能力，还推动了多模态理解技术在极端稀疏正样本环境下的算法创新。

实际应用

在实际应用层面，火星全球地质定位数据集的技术可直接服务于行星机器人与自主探测系统。例如，未来的火星车或轨道器可利用训练后的模型，实时分析遥感影像，自动识别并定位具有科学价值的地质目标，如潜在的水冰储存区（冰川状形态）或古水文遗迹（冲积扇）。这能显著提升探测任务的效率与科学性，减少对地面人工判读的依赖，为深空探测的自主化与智能化提供关键技术支持。

衍生相关工作

围绕该数据集，已衍生出一系列专注于行星尺度多模态检索的经典研究工作。这些工作主要集中于改进视觉语言模型的架构与训练策略，以应对全球CTX镶嵌图中极低的正样本密度挑战。例如，研究者们开发了新的损失函数与负采样策略来优化嵌入空间，并探索了结合地理上下文先验知识的模型，以提升在AUPRC和Optimal F1@K*等指标上的性能。这些进展不仅推动了地理空间人工智能的发展，也为地球遥感等领域的类似大规模检索问题提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集