MSEarth

Name: MSEarth
Creator: 上海人工智能实验室、香港理工大学、上海交通大学、香港中文大学
Published: 2025-05-27 13:30:35
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://huggingface.co/MSEarth, https://github.com/xiangyu-mm/MSEarth

下载链接

链接失效反馈

官方服务：

资源简介：

MSEarth是一个多模态科学基准数据集，由高质量、公开获取的科学出版物组成。该数据集涵盖了地球科学的五个主要领域：大气圈、水圈、冰圈、岩石圈和生物圈，拥有超过7000个精心制作的图表和标题。这些标题是从原始图表标题和论文中的讨论和推理中精心制作的，确保基准能够捕捉到高级科学任务所必需的微妙推理和知识密集型内容。MSEarth支持多种任务，包括科学图表标题、多项选择题和开放式推理挑战。该基准数据集通过弥合研究生水平基准的差距，为促进多模态大型语言模型在科学推理方面的发展和评估提供了可扩展且高保真的资源。

MSEarth is a multimodal scientific benchmark dataset composed of high-quality, publicly accessible scientific publications. It covers five core domains of Earth science: the atmosphere, hydrosphere, cryosphere, lithosphere, and biosphere, and contains over 7,000 meticulously curated figures and their accompanying captions. These captions are carefully crafted from original figure titles, as well as discussions and reasoning within the source papers, ensuring that the benchmark captures the subtle reasoning and knowledge-intensive content essential for advanced scientific tasks. MSEarth supports a variety of tasks, including scientific figure captioning, multiple-choice questions, and open-ended reasoning challenges. By bridging the gap in graduate-level scientific benchmarks, this benchmark provides a scalable and high-fidelity resource to facilitate the development and evaluation of multimodal large language models for scientific reasoning.

提供机构：

上海人工智能实验室、香港理工大学、上海交通大学、香港中文大学

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

MSEarth数据集的构建采用了多阶段严谨的流程，首先从开放获取的10万余篇地球科学文献中筛选出包含高质量图像的4.4万篇论文，通过语义相似度计算将论文分类至大气圈、水圈等五大地球系统。随后利用Qwen-VL模型进行图像过滤，保留具有科学价值的观测图像。核心创新在于提出'精炼标注'概念，通过GPT-4o整合原始图注与论文中的科学论述，使平均标注长度从37.71词扩展至137.47词。最后采用多智能体投票机制（Qwen-VL、InternVL等5个模型）与专家验证相结合的三阶段质量控制系统，确保生成的7195个问题具有专业可靠性。

使用方法

使用该数据集时需注意原始图注的关键作用，实验表明提供图注可使模型平均性能提升5-8%。评估采用多维度指标：多选题直接计算准确率；图文生成任务结合BLEU/ROUGE等传统指标与Cap-Eval专业评分（1-5级）；开放式问题采用OE-Eval二元评估。针对专业性问题，建议采用多数投票机制（N=8）可提升效果。数据集支持跨模态对比实验设计，可测试模型在单图聚焦、多图关联等不同认知层级的表现。所有资源可通过HuggingFace平台获取，包含图像PNG文件与结构化JSON元数据。

背景与挑战

背景概述

MSEarth是由上海人工智能实验室、香港理工大学等机构的研究团队于2025年提出的多模态科学理解基准数据集，旨在评估多模态大语言模型在地球科学领域的专业级推理能力。该数据集从14,000余篇开放获取的科学文献中精选了涵盖大气圈、水圈、冰冻圈、岩石圈和生物圈五大圈层的7,000余幅科学图表，通过创新的'精炼标注'技术将原始图注与论文中的科学推理深度融合，填补了研究生层级地球科学多模态基准的空白。作为首个面向高级地球科学问题的多模态评估体系，MSEarth为促进科学人工智能的发展提供了高保真的研究平台。

当前挑战

MSEarth面临的核心挑战体现在两个维度：在领域问题层面，需解决地球科学特有的跨圈层耦合现象建模、多尺度时空数据分析等复杂推理任务，这对模型的领域知识融合与科学因果推理能力提出极高要求；在构建技术层面，面临科学图表语义深度解析、长上下文知识对齐、专业级问题自动生成等难题，特别是如何从学术论文中提取支持科学发现的证据链，并转化为可量化的评估指标。此外，数据异质性带来的模态对齐问题以及专业标注的高成本也是构建过程中的主要障碍。

常用场景

经典使用场景

MSEarth数据集作为地球科学领域多模态理解的基准，其经典使用场景包括科学图表标注、多选视觉问答（VQA）以及开放式推理挑战。数据集中的图表来源于高质量开放获取的科学出版物，涵盖了大气层、水圈、冰冻圈、岩石圈和生物圈五大领域，为研究者提供了丰富的多模态数据以测试和提升模型在复杂科学推理任务中的表现。

解决学术问题

MSEarth数据集解决了当前多模态大语言模型（MLLMs）在高级地球科学推理任务中缺乏专业级评估基准的问题。通过整合论文中的图表、原始标注及科学讨论生成的“精炼标注”，该数据集填补了现有基准在捕捉专业级地学推理深度和上下文复杂性方面的空白，显著提升了模型在科学发现问题和感知问题上的表现评估能力。

实际应用

在实际应用中，MSEarth数据集被广泛用于开发能够解析气象图、地质剖面图等专业科学图像的AI系统。例如，在气候建模中，模型通过分析数据集中台风路径图与压力梯度图的多模态关联，可提升对极端天气事件的预测准确性；在地质勘探领域，其支持的图表标注任务能辅助自动化生成矿产分布报告。

数据集最近研究