OmniEarth-Bench

github2025-05-30 更新2025-05-31 收录

下载链接：

https://github.com/nanocm/OmniEarth-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

OmniEarth-Bench是第一个全面覆盖地球科学六大圈层（大气圈、岩石圈、海洋圈、冰冻圈、生物圈和人类活动圈）及跨圈层交互的多模态基准数据集，包含一百个专家策划的评价维度。数据集利用卫星传感器和现场测量的观测数据，整合了29,779个标注，涵盖四个层次：感知、一般推理、科学知识推理和思维链（CoT）推理。

OmniEarth-Bench is the first comprehensive multimodal benchmark dataset covering all six spheres of Earth sciences (atmosphere, lithosphere, ocean, cryosphere, biosphere, and human activities) and their cross-sphere interactions, encompassing one hundred evaluation dimensions meticulously planned by experts. The dataset integrates 29,779 annotations using observations from satellite sensors and on-site measurements, spanning four levels: perception, general reasoning, scientific knowledge reasoning, and Cognitive Task (CoT) reasoning.

创建时间：

2025-05-15

原始信息汇总

OmniEarth-Bench 数据集概述

数据集基本信息

名称: OmniEarth-Bench
发布日期: 2025-05-15
最新版本: v2（修订中，即将发布）
论文链接: arXiv:2505.23522
数据集链接: Hugging Face

数据集简介

OmniEarth-Bench 是首个涵盖地球科学六大圈层（大气圈、岩石圈、海洋圈、冰冻圈、生物圈和人类活动圈）及跨圈层交互的多模态基准数据集。数据集基于卫星传感器和实地观测数据，包含 29,779 条专家标注，涵盖四个层级任务：

感知（L1）
通用推理（L2）
科学知识推理（L3）
思维链推理（CoT, L4）

核心贡献

全面覆盖六大圈层
- 提供 58 个实用且全面的评估维度，显著超越现有基准。
首创跨圈层评估
- 针对灾害预测、生态预报等社会重要任务设计跨圈层评估能力。
地球科学思维链推理
- 首次为复杂地球科学推理任务定制 CoT 评估，探索 CoT 策略在地球领域的应用潜力。

数据集结构

任务层级:
- L1: 7 个维度
- L2: 23 个维度
- L3: 4 个维度
- L4: 103 个专家定义的子任务（具现实应用性）
数据示例: 见图 3（示例展示各圈层代表性 L4 子任务）。

评估结果

六大圈层 VQA 任务性能: 见图 4（按平均准确率排名，专家评估结果作为参照）。
思维链推理性能: 见图 5（报告精确率、召回率和 F1 分数）。

引用格式

latex @article{wang2025omniearthbenchholisticevaluationearths, title={OmniEarth-Bench: Towards Holistic Evaluation of Earths Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data}, author={Fengxiang Wang et al.}, journal={arXiv preprint arXiv:2505.23522}, year={2025} }

联系方式

Fengxiang Wang: wfx23@nudt.edu.cn
Mingshuo Chen: chen.mingshuo@bupt.edu.cn

搜集汇总

数据集介绍

构建方式

OmniEarth-Bench作为地球科学领域首个跨六圈层多模态基准数据集，其构建过程体现了严谨的科学方法论。研究团队整合了卫星遥感和实地观测数据，通过专家标注体系对29,779个数据样本进行了四层级标注——感知层、通用推理层、科学知识推理层以及思维链推理层。这种层级化的标注框架不仅覆盖了大气圈、岩石圈、水圈等传统地球系统要素，更创新性地纳入了人类活动圈层的交互影响，通过103个专家定义的L4子任务实现了对复杂地球系统过程的精细化建模。

特点

该数据集最显著的特征在于其前所未有的覆盖广度与深度。相较于传统单圈层评估基准，OmniEarth-Bench开创性地构建了58个跨圈层评估维度，特别是在灾害预测、生态评估等社会关键领域设置了交叉验证任务。数据集包含的思维链推理评估模块填补了地球科学复杂推理任务的评估空白，其设计的四层级任务结构（7个L1维度、23个L2维度、4个L3维度）为多模态地球观测数据的认知能力评估提供了标准化框架。

使用方法

研究者可通过Hugging Face平台获取数据集完整资源，按照四层级评估体系开展实验验证。对于基础感知任务，建议从L1维度的单圈层分析入手；处理跨圈层交互问题时，应重点参考L3维度的科学知识推理任务设计；当面临极端天气预测等复杂场景时，数据集提供的思维链推理标注可作为模型训练的有效监督信号。评估阶段需严格遵循论文附录中定义的103个L4子任务指标，并参照公布的基线模型性能进行对比分析。

背景与挑战

背景概述

OmniEarth-Bench数据集由国防科技大学、上海人工智能实验室等机构的研究团队于2025年联合推出，标志着地球系统科学领域多模态评估的重要突破。该数据集创新性地整合了地球六大圈层（大气圈、岩石圈、海洋圈、冰冻圈、生物圈和人类活动圈）的观测数据，通过卫星遥感和实地测量获取的多源异构数据，构建了包含29,779条专家标注的评估体系。其核心价值在于建立了涵盖感知、通用推理、科学知识推理和思维链推理的四层级评估框架，为理解地球系统各圈层相互作用机制提供了标准化研究平台，推动了地球科学从单圈层分析向多圈层耦合研究的范式转变。

当前挑战

该数据集面临的双重挑战主要体现于科学问题复杂性和数据整合难度。在领域问题层面，地球系统各圈层交互作用具有高度非线性和时空异质性，传统单模态评估方法难以捕捉跨圈层耦合效应，现有模型在思维链推理任务中的准确率接近零值。数据构建过程中，多源异构地球观测数据的时空分辨率差异显著，卫星遥感与地面实测数据的融合需要解决尺度转换难题；同时，专家标注体系需平衡107个L4子任务的科学严谨性与实际应用价值，跨学科知识整合对标注质量控制提出了极高要求。

常用场景

经典使用场景

在地球科学领域，OmniEarth-Bench数据集为研究者提供了一个全面的评估框架，涵盖地球六大圈层及其相互作用。该数据集通过多模态观测数据，包括卫星遥感和现场测量数据，支持从基础感知到复杂推理的多层次任务评估。研究者可以利用该数据集进行跨圈层交互分析，例如灾害预测和生态评估，从而深入理解地球系统的复杂动态。

实际应用

OmniEarth-Bench的实际应用场景广泛，包括灾害预警、气候变化研究、生态系统监测等。例如，在灾害预测中，研究者可以利用该数据集的跨圈层交互数据，分析大气、海洋和人类活动的综合影响，从而提高预测准确性。此外，生态学家可以通过生物圈和人类活动圈的数据，评估人类活动对生态系统的长期影响。

衍生相关工作

OmniEarth-Bench的发布推动了多模态地球科学数据研究的发展。基于该数据集，研究者开发了多种新型模型和方法，特别是在跨圈层交互和链式思维推理任务中取得了显著进展。相关经典工作包括改进的多模态融合算法、基于CoT的灾害预测模型以及针对特定圈层的专业化评估工具，这些成果进一步丰富了地球科学研究的工具箱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集