zjunlp/OceanBenchmark

Name: zjunlp/OceanBenchmark
Creator: zjunlp
Published: 2026-05-06 11:48:31
License: 暂无描述

Hugging Face2026-05-06 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/zjunlp/OceanBenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

OceanBenchmark是一个基准数据集，旨在评估以海洋为重点的大型模型的综合能力。它涵盖了从单模态海洋科学知识问答到复杂的多模态视觉问答的多种任务。数据集包括多个子集（Science-Text、Science-MM、Sonar、Bio），每个子集有不同的任务类型（QA、VQA）和样本大小。每个子集都有特定的特征和格式描述。数据集支持中文和英文，并采用MIT许可证。

OceanBenchmark is a benchmark dataset designed to assess the comprehensive capabilities of ocean-focused large models. It covers a wide range of tasks, spanning from unimodal ocean science knowledge question answering to complex multimodal visual question answering. The dataset consists of multiple subsets (Science-Text, Science-MM, Sonar, Bio), each with distinct task types (QA, VQA) and sample sizes. Each subset has its own specific characteristics and format specifications. The dataset supports both Chinese and English, and is distributed under the MIT License.

提供机构：

zjunlp

搜集汇总

数据集介绍

构建方式

OceanBenchmark数据集旨在全面评估海洋领域大模型的综合能力，其构建过程融合了多元化的数据来源与精细化的任务设计。该数据集涵盖了四个子集：Science-Text从43篇海洋科学学术PDF中提取出102道纯文本多项选择题，涵盖物理海洋学、海洋气候学等多个学科类别；Science-MM则基于99个科学图表与图像构建视觉问答对；Sonar子集包含796个声纳图像目标检测问答样本；Bio子集则收录472个海洋生物分类与识别视觉问答样本。每个子集均以Parquet格式存储，并明确标注了特征字段，如输入问题、输出答案、图像路径及类型标签。

使用方法

使用者可通过HuggingFace Datasets库便捷加载该数据集，例如使用`load_dataset('zjunlp/OceanBenchmark', 'Sonar', split='test')`加载声纳评估子集，或通过`Science-MM`配置加载视觉问答数据。值得注意的是，Science-Text子集中的`choices`字段以字典字符串形式存储，需借助`ast.literal_eval()`函数进行解析方能获取选项键值对。对于多模态任务，用户可直接访问`image`字段获取图像数据，配合`input`或`question`字段完成模型推理。数据集默认提供训练集与测试集划分，支持直接用于大模型的零样本评估或微调训练。

背景与挑战

背景概述

海洋科学作为地球系统科学的核心分支，其研究高度依赖多模态数据（文本、声呐图像、生物影像等）的融合分析。然而，现有大语言模型在海洋领域的专业问答与视觉理解能力缺乏系统性评估。为填补这一空白，浙江大学知识引擎实验室（ZJUNLP）于2024年发布了OceanBenchmark数据集。该基准涵盖文本科学问答（102样本，源自43篇海洋学论文）、科学图表视觉问答（99样本）、声呐目标检测问答（796样本）及海洋生物分类问答（472样本），横跨物理海洋学、气候学、化学海洋学等子领域。作为首个面向海洋领域大模型的多模态评估基准，其设计推动了域特定模型从通用能力向专业化知识的演进。

当前挑战

OceanBenchmark面临的挑战具有双重性。在领域问题层面，海洋科学知识体系高度交叉且更新迅速，数据集需覆盖物理海洋学至古海洋学等多学科，而当前仅部分样本标注了子类别标签（32.4%），缺乏精细粒度支持深度评估。在构建过程中，数据来源限于学术PDF的有限图件（99张科学图）及声呐/生物图像（1268样本），样本量不足以驱动大模型鲁棒性训练；同时，声呐图像与生物VQA任务需处理低信噪比成像与物种类间相似性，对视觉-语言对齐提出严苛要求。此外，中英双语混合的语料进一步增加了跨语言泛化的复杂性。

常用场景

经典使用场景

在海洋科学与人工智能的交叉领域，OceanBenchmark作为首个面向海洋大语言模型和多模态大模型的综合性评测基准，为评估模型在海洋科学领域的知识与推理能力提供了标准化的测试平台。其经典使用场景涵盖纯文本海洋科学知识问答，通过Science-Text子集从43篇学术论文中提取的102道多选题，检验模型对物理海洋学、海洋气候学、化学海洋学等六大学科方向的掌握程度；同时，Science-MM子集包含99道基于科学图表的多模态视觉问答任务，要求模型同时理解图像与文本信息以给出正确答案。Sonar子集（796样本）聚焦于声纳图像目标检测与问答，而Bio子集（472样本）则专攻海洋生物分类与识别任务，构成了从单模态到多模态、从知识记忆到视觉理解的完整评估体系。

解决学术问题

长期以来，海洋科学领域的自然语言处理研究受限于缺乏领域专用的评测数据集，导致通用大模型在海洋知识问答、图表理解、声纳图像分析等专业任务上的能力难以量化。OceanBenchmark通过系统整合学术论文中的文本问答、科学图表视觉问答以及声纳和生物图像问答，解决了三大核心学术问题：首先，为海洋科学多模态大模型提供了可复现的标准化评估指标，填补了该领域基准数据集的空白；其次，其多任务设计能够诊断模型在知识记忆（Science-Text）、视觉-语言对齐（Science-MM）、细粒度图像识别（Sonar与Bio）等不同认知维度上的优劣，为模型改进指明方向；最后，通过提供多标签类别标注，该数据集支持跨学科能力的细粒度分析，推动了海洋科学知识与人工智能融合的学术研究范式。

实际应用

OceanBenchmark在实际应用中服务于海洋科学研究与工程实践的多重场景。在海洋教育领域，该数据集可作为智能教学系统的评测工具，自动评估学生对海洋学知识的掌握程度；在海洋勘探场景中，Sonar子集支持声纳图像目标检测模型的开发与验证，助力海底地形测绘、沉船定位与管道检测等任务；在海洋生态保护方面，Bio子集为海洋生物自动识别系统提供了基准测试，可用于训练水下机器人对珊瑚、鱼类等生物进行分类监测；此外，Science-MM子集的能力验证有助于研发能够辅助科研人员快速解读海洋科学图表（如温度剖面图、盐度分布图）的智能助手，提升文献综述与实验设计的效率。

数据集最近研究