Mars-Landforms
收藏Hugging Face2026-02-17 更新2026-02-18 收录
下载链接:
https://huggingface.co/datasets/SUSTech/Mars-Landforms
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是MarsRetrieval基准测试的Task 2,旨在评估视觉语言模型(VLMs)在火星地理空间发现中的表现。Task 2重点评估火星地貌的概念到实例的泛化能力。给定一个文本描述的地貌概念,模型需要从一个精心策划的火星图像库中检索出对应的视觉实例。数据集包含1,185个从CTX和HiRISE影像中精心挑选的图像块,地貌按照两级分类法组织:7个主要成因类别(如风成、火山和流水过程)和48个地貌子类别(如风成沙丘、尘卷风轨迹、雅丹地貌)。该任务被定义为文本到图像的多正例检索问题,目标是通过嵌入空间中的余弦相似度对图库中的所有图像进行排序。评估指标包括宏观平均精度(mAP)、nDCG@10和Hits@10。数据集可通过HuggingFace的datasets库加载,适用于多模态检索任务。
创建时间:
2026-02-10
搜集汇总
数据集介绍
构建方式
在行星地质学领域,火星地貌的精细识别是理解其地质演化历史的关键。Mars-Landforms数据集的构建依托于火星轨道探测器获取的高分辨率影像数据,包括CTX和HiRISE图像。研究团队从这些原始影像中精心裁剪出1185个具有代表性的图像斑块,并依据两级地貌分类学体系进行标注。该体系涵盖7个主要成因类别,如风成、火山和流水过程,并进一步细分为48个地貌子类,例如沙丘、尘埃魔鬼轨迹和雅丹地貌,确保了数据在科学分类上的严谨性与完整性。
特点
该数据集的核心特征在于其专为评估视觉语言模型在火星地理空间发现中的概念到实例泛化能力而设计。它采用文本到图像的多正例检索任务形式,其中每个文本查询描述一个地貌子类,而图库中包含多个被视为有效正例的图像实例。数据集规模适中,约包含一千余个样本,涵盖了火星表面多样且典型的地貌形态,其长尾分布特性模拟了真实行星地质数据中不同地貌类型出现频率的差异,为模型鲁棒性评估提供了挑战。
使用方法
研究人员可通过Hugging Face的`datasets`库便捷地加载此数据集,直接访问图像及其对应的地貌标签。数据集主要用于训练和评估模型在给定文本地貌概念下,从图像库中检索对应视觉实例的能力。官方提供了完整的检索中心评估协议和脚本,建议使用者遵循相关文档,采用宏观平均精度、标准化折损累计增益及命中率等指标,以全面衡量模型在火星地貌多正例检索任务上的性能表现。
背景与挑战
背景概述
火星地貌数据集(Mars-Landforms)作为火星检索基准(MarsRetrieval)的核心组成部分,由南方科技大学的研究团队于2026年构建,旨在推动行星科学中视觉语言模型在跨模态检索领域的发展。该数据集聚焦于火星地表形态的精细识别,通过整合来自CTX与HiRISE探测仪的高分辨率影像,系统性地标注了涵盖风成、火山、流水等七大成因类别的四十八种地貌亚类。其设计不仅深化了对火星地质过程的理解,更为地外天体遥感分析提供了标准化的评估框架,促进了人工智能在天体地质学中的实际应用。
当前挑战
火星地貌数据集致力于解决行星科学中跨模态检索的核心难题,即如何实现从文本概念到视觉实例的精准映射,以应对火星地表形态的复杂多样性与类间相似性。在构建过程中,研究人员面临影像数据标注的严峻挑战,需在有限的高质量火星影像中,依据精细的两级地貌分类体系进行人工筛选与验证,确保类别平衡与地理代表性。此外,数据的长尾分布特性及多正例检索设定,对模型的泛化能力与评估指标的设计提出了更高要求。
常用场景
经典使用场景
在行星地质学与遥感科学领域,Mars-Landforms数据集为评估视觉-语言模型在火星地貌识别中的泛化能力提供了基准。该数据集的核心应用场景聚焦于概念到实例的检索任务,即给定一个描述特定地貌类型的文本查询,模型需要从精心标注的火星图像库中检索出对应的视觉实例。这一过程模拟了地质学家利用专业知识从海量遥感影像中定位目标地貌的认知流程,为多模态模型在行星科学中的实际部署奠定了验证基础。
解决学术问题
该数据集旨在解决行星遥感中地貌自动识别与分类的若干关键学术问题,尤其是针对视觉-语言模型在跨模态理解与长尾分布数据上的泛化性能挑战。通过构建涵盖48种地貌子类的结构化标注体系,它促进了模型对火星复杂地表形态的细粒度感知能力,并推动了多正例检索评估框架的发展。其意义在于为行星地质学提供了一种可量化的模型评估标准,加速了人工智能技术在深空探测数据分析中的应用进程。
衍生相关工作
围绕Mars-Landforms数据集,已衍生出一系列专注于行星科学多模态检索的经典研究工作。例如,其所属的MarsRetrieval基准提出了针对火星地理空间发现的完整评估协议,推动了视觉-语言模型在行星尺度检索任务上的性能比较与优化。后续研究进一步探索了基于对比学习的嵌入方法、长尾分布下的损失函数设计以及跨传感器影像的泛化能力,这些工作共同丰富了行星遥感与人工智能交叉领域的技术体系。
以上内容由遇见数据集搜集并总结生成



