five

MarScope

收藏
arXiv2026-01-22 更新2026-01-24 收录
下载链接:
http://marscope.site/
下载链接
链接失效反馈
官方服务:
资源简介:
MarScope是由南方科技大学等机构联合构建的行星尺度多模态数据集,包含20余万条涵盖火星、月球、水星等天体地貌的图像-文本对。数据来源包括HiRISE网站、NASA/ESA官方发布及同行评议文献,经过LLM辅助的语义清洗和标注优化。该数据集通过对比学习将图像与自然语言描述对齐至共享语义空间,支持以自然语言为接口的行星地貌检索。其应用聚焦于行星科学领域,旨在解决传统像素级影像归档与语义化科学分析之间的鸿沟,实现无需预定义标签的开放式行星表面探索。

MarScope is a planetary-scale multimodal dataset jointly constructed by Southern University of Science and Technology and other institutions. It contains over 200,000 image-text pairs covering planetary landforms of Mars, the Moon, Mercury and other celestial bodies. Its data sources include the HiRISE website, official releases from NASA and ESA, as well as peer-reviewed literature. The dataset has undergone LLM-assisted semantic cleaning and annotation optimization. It aligns images and natural language descriptions into a shared semantic space via contrastive learning, supporting planetary landform retrieval with natural language as the interface. Its applications focus on the field of planetary science, aiming to bridge the gap between traditional pixel-level image archiving and semantic scientific analysis, and enable open-ended planetary surface exploration without pre-defined labels.
提供机构:
南方科技大学·理学院; 中国地质大学; 香港大学; 中国地质大学·行星地质湖北省重点实验室; 香港中文大学·深圳
创建时间:
2026-01-22
搜集汇总
数据集介绍
main_image_url
构建方式
在行星科学领域,海量的遥感影像数据与人类基于自然语言的高层次地貌概念之间存在显著鸿沟。MarScope数据集的构建旨在弥合这一差距,其核心是构建一个包含超过20万对图像-文本样本的行星尺度多模态数据集。这些样本覆盖了火星、月球、水星及多个冰卫星的多样化地貌特征,影像来源于高分辨率轨道数据集,如HiRISE网站及NASA和ESA的官方发布。通过大型语言模型辅助的筛选流程,对原始文本进行相关性过滤、关键短语提取和语义重写,并结合同义词扩展与转述等数据增强技术,增强了语言多样性,从而训练出一个能够将行星影像与自然语言描述对齐于共享语义空间的视觉-语言模型。
使用方法
MarScope数据集的使用方法体现了其作为探索性平台的强大功能。研究人员可通过其在线平台,以自然语言文本、代表性图像或二者结合的方式发起查询。系统基于预构建的全局CTX影像镶嵌图,在两种空间分辨率(0.2°和0.02°)的瓦片上进行快速语义相似性检索,并将匹配结果以全球分布图、热力图或点集形式可视化呈现。此外,所有匹配的影像瓦片及其地理坐标均可直接下载,为下游的分类模型训练或详细的地貌分析提供了即用的数据支持。这种设计极大地降低了专业数据集构建的门槛,使得从大规模行星影像中提取语义信息变得高效而直观。
背景与挑战
背景概述
行星科学领域长期面临海量遥感数据与人类语义理解之间的鸿沟,传统方法依赖人工解译或特定监督学习,难以实现高效、开放式的全球地表特征探索。在此背景下,南方科技大学等机构的研究团队于2026年推出了MarScope数据集,该数据集构建了一个行星尺度的视觉-语言框架,通过超过20万对精心筛选的图像-文本对进行训练,将火星地表影像与自然语言描述对齐到共享语义空间中。其核心研究问题在于如何利用自然语言驱动、无需预定义标签的方式,实现火星地貌的快速检索与全球制图,从而推动行星地质学从像素级分析向语义级理解的范式转变,显著提升了地表过程研究的可扩展性与灵活性。
当前挑战
MarScope旨在解决的领域挑战是实现自然语言驱动的开放式行星地貌映射,替代传统基于固定分类的监督学习方法,以应对火星等地外天体日益增长的影像数据所带来的‘数据丰富但解释有限’困境。在构建过程中,研究团队需克服多重挑战:一是训练数据的质量与多样性保障,需从异构行星影像中提取具有代表性且语义一致的图像-文本对;二是多模态语义对齐的复杂性,要求模型能够精准捕捉地貌形态与语言描述之间的深层关联;三是系统设计的权衡,例如固定图块尺寸在全局覆盖与局部细节之间的平衡,可能影响超大规模或亚公里级特征的识别精度。
常用场景
经典使用场景
在行星地质学领域,MarScope数据集通过其视觉-语言对齐框架,实现了对火星地貌的全局语义检索。该数据集最经典的使用场景是支持研究人员以自然语言为查询接口,在数秒内生成全球尺度的地貌分布图。例如,用户输入“yardangs”或“冰川状形态”等文本描述,系统便能从海量轨道影像中快速定位相关特征,无需依赖预定义的分类标签或大量标注数据。这种开放式的检索机制突破了传统像素级影像组织的局限,使得科学家能够灵活探索火星表面的风成、冰川、火山等多种地貌系统,为行星表面过程的系统性分析提供了高效工具。
解决学术问题
MarScope数据集有效解决了行星科学中“数据丰富但解释有限”的经典难题。传统方法依赖于人工解译或特定任务的监督学习,前者耗时费力且难以扩展,后者则受限于标注数据的质量和泛化能力。该数据集通过对比学习将影像与文本嵌入共享语义空间,实现了零样本、无标签的检索,从而克服了形态分类的僵化性。其意义在于将地貌映射从预定义分类任务转变为开放式语义检索问题,不仅提升了探索效率,还促进了跨地貌系统的过程导向分析,为理解火星表面演化机制提供了新的方法论基础。
实际应用
在实际应用层面,MarScope数据集为行星探测任务和地质研究提供了直接支持。该平台能够快速生成全球地貌分布图,辅助任务规划与目标选址,例如为火星车寻找潜在的冰相关特征或撞击坑群。同时,其视觉相似性检索功能可用于发现罕见或未命名地貌,如双生撞击坑和倒转 crater,从而扩展了对火星表面多样性的认知。此外,检索结果可直接导出为训练样本,加速下游AI模型的开发,降低了数据集构建的门槛,使得科研团队能够更专注于科学问题的深入探究。
数据集最近研究
最新研究方向
在行星地质学与人工智能交叉领域,MarScope数据集引领了自然语言驱动的地貌映射新范式。该框架通过将超过20万对精心策划的图像-文本对嵌入共享语义空间,实现了对火星地貌的即时、无标签检索,将传统基于像素的分类任务转化为开放的语义检索问题。前沿研究聚焦于利用其多模态查询能力,支持基于形成过程的机理导向映射,以及通过视觉相似性搜索发现稀有或未命名地貌,如双坑与倒置坑。这一进展不仅推动了行星表面过程的跨系统整合分析,也为大规模地理空间数据的高层概念导航提供了可扩展的范例,标志着从预设形态分类到语义推理驱动的科学探索的范式转变。
相关研究论文
  • 1
    Natural Language-Driven Global Mapping of Martian Landforms南方科技大学·理学院; 中国地质大学; 香港大学; 中国地质大学·行星地质湖北省重点实验室; 香港中文大学·深圳 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作