Mars-Bench
收藏arXiv2025-10-28 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/mars-bench
下载链接
链接失效反馈官方服务:
资源简介:
Mars-Bench是一个全面的基准测试,旨在使用轨道和地表图像系统地评估机器学习模型在广泛的火星相关任务上的性能。该基准包括20个数据集,涵盖分类、分割和目标检测任务,重点关注火星科学中常见的地质特征,如陨石坑、火山锥、巨石和霜。数据集已标准化,并提供预训练模型的基线评估,旨在促进火星科学领域机器学习模型的发展和比较。
Mars-Bench is a comprehensive benchmark designed to systematically evaluate the performance of machine learning models across a wide range of Mars-related tasks using orbital and surface images. This benchmark includes 20 datasets covering classification, segmentation and object detection tasks, focusing on geologic features common in Martian science, such as craters, volcanic cones, boulders and frost. The datasets have been standardized, and baseline evaluations with pre-trained models are provided, aiming to facilitate the development and comparison of machine learning models in the field of Martian science.
提供机构:
亚利桑那州立大学计算与增强智能学院、地球与空间探索学院、喷气推进实验室
创建时间:
2025-10-28
搜集汇总
数据集介绍

构建方式
在行星科学领域,数据标准化与可访问性对机器学习应用至关重要。Mars-Bench通过系统整合现有火星科学数据集,构建了首个综合性评估基准。该数据集汇集了来自火星轨道器和表面巡视器的20个独立数据集,涵盖分类、分割和目标检测三大任务类型。构建过程中,研究团队对原始数据进行了质量校验与格式统一,确保所有数据集均采用机器学习就绪的标准化结构,同时提供多种标注格式以支持不同模型框架。专家验证的修正环节进一步提升了标注质量,确保了数据在行星地质学领域的科学准确性。
使用方法
为促进科研社区的高效利用,Mars-Bench提供了完整的工具链支持。数据集通过Hugging Face和Zenodo平台公开发布,配备标准化数据加载脚本与详细文档。研究人员可通过提供的代码库复现全部基准实验,也可利用模块化管道快速开展新模型评估。基准还发布了各任务的性能最优基线模型,支持迁移学习与领域自适应研究。针对小样本学习场景,专门提供了从1%到100%的多级训练集划分,便于系统研究数据规模对模型性能的影响规律。
背景与挑战
背景概述
Mars-Bench作为首个专注于火星科学任务的标准化基准数据集,由亚利桑那州立大学与加州理工学院喷气推进实验室的研究团队于2025年联合创建。该数据集旨在填补火星科学领域缺乏系统性评估框架的空白,通过整合20个涵盖分类、分割与目标检测任务的数据集,聚焦陨石坑、火山锥、沙尘暴等关键地质特征的分析。其数据源自火星勘测轨道飞行器及好奇号等巡视器采集的轨道与地表影像,为行星科学与机器学习交叉研究提供了重要基础设施,推动了火星专用基础模型的开发进程。
当前挑战
Mars-Bench需解决火星地质特征识别中的领域特异性挑战,例如沙尘暴检测中目标与背景的低对比度问题,以及火山锥形态的高类内差异性导致的模型泛化困难。在构建过程中,数据集面临标注专业性强、样本规模受限等难题:火星影像需行星科学专家参与标注,耗时长达数月;部分数据集如mb-boulder_det仅含数十样本,且存在类别不平衡现象。此外,多模态数据标准化与地理参考信息缺失进一步增加了数据集构建的复杂性。
常用场景
经典使用场景
在行星科学领域,Mars-Bench作为首个标准化基准,广泛应用于评估机器学习模型在火星轨道与地表图像上的性能。该数据集覆盖分类、分割和检测三大任务,聚焦于陨石坑、火山锥、巨石等关键地质特征的识别与分析,为研究人员提供了统一的评估框架,以系统比较不同模型在多样化火星科学任务中的表现。
解决学术问题
Mars-Bench解决了火星科学中缺乏标准化评估工具的长期问题,填补了领域内基础模型开发的空白。通过整合20个专家验证的数据集,该基准支持对模型泛化能力、鲁棒性及领域适应性的深入研究,尤其针对小样本学习和数据不平衡等挑战,为构建火星专用基础模型奠定了实验基础,推动了行星科学与人工智能的交叉创新。
实际应用
在实际应用中,Mars-Bench为火星探测任务提供了关键技术支持,例如通过自动识别陨石坑和火山锥辅助全球地质制图,或利用地表图像分类优化巡视器导航决策。其预训练模型可生成初步地质特征预测,显著减少专家标注负担,加速科学发现流程,并为未来自主探测系统提供可靠的视觉感知能力。
数据集最近研究
最新研究方向
随着行星科学领域对人工智能技术的依赖日益加深,Mars-Bench作为首个针对火星科学任务设计的标准化基准,正推动该领域前沿研究的快速发展。当前研究聚焦于开发专门针对火星轨道与地表图像的基础模型,通过系统评估模型在分类、分割和检测任务中的表现,显著提升了火星地质特征识别的准确性与泛化能力。热点方向包括探索领域自适应预训练策略,以弥补地球与火星图像在植被缺失、独特地质构造及大气条件等方面的域间差异;同时,视觉语言模型在火星科学任务中的迁移能力成为研究焦点,揭示其在细粒度地质结构识别中的局限性。这些进展不仅加速了全球火山锥、撞击坑等关键地貌的自动化测绘,还为分布偏移、小样本学习等机器学习核心问题提供了真实世界验证场景,对推动行星地质学发现和跨领域人工智能技术融合具有深远意义。
相关研究论文
- 1Mars-Bench: A Benchmark for Evaluating Foundation Models for Mars Science Tasks亚利桑那州立大学计算与增强智能学院、地球与空间探索学院、喷气推进实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



