MarineEval

Hugging Face2026-01-16 更新2026-01-17 收录

下载链接：

https://huggingface.co/datasets/WongYukKwan/MarineEval

下载链接

链接失效反馈

官方服务：

资源简介：

MarineEval是第一个专门设计用于评估视觉语言模型（VLMs）在海洋理解能力方面的大规模基准测试。该数据集包含2000个专家验证的基于图像的问答对，涵盖7个任务维度和20个特定领域的能力维度，强调专业的海洋知识、视觉推理和现实世界的复杂性。通过对17种最先进的VLMs进行全面基准测试，研究发现现有的通用模型在海洋任务上表现不佳，特别是在空间推理、物种识别和生态理解方面，这凸显了领域感知训练和评估的必要性。该资源旨在促进领域专家VLMs的进步，以推动海洋科学的研究和保护。

创建时间：

2026-01-14

原始信息汇总

MarineEval 数据集概述

数据集基本信息

数据集名称： MarineEval
许可协议： cc-by-4.0
主要任务类别：问答
语言：英语
标签：生物学
数据规模： 1K<n<10K
配置名称： default

数据集描述

MarineEval 是首个专门用于评估视觉语言模型海洋理解能力的大规模基准测试。该数据集包含 2,000 个经过专家验证的基于图像的问答对，涵盖 7 个任务维度和 20 个特定领域的能力维度，强调专业的海洋知识、视觉推理和现实世界的复杂性。通过对 17 个最先进的视觉语言模型进行全面基准测试，研究表明现有的通用模型在海洋任务上表现不佳，特别是在空间推理、物种识别和生态理解方面，这凸显了领域感知训练和评估的必要性。该资源旨在推动领域专家级视觉语言模型的进步，以促进海洋科学的研究和保护。

数据集结构

数据集结构如下：

dataset/ ├── dimension 1 │ ├── sub dimension 1 │ │ ├── images/ │ │ ├── data.json │ ├── sub dimension 1 │ │ ├── images/ │ │ ├── data.json ├── dimension 2 │ ├── sub dimension 1 │ │ ├── images/ │ │ ├── data.json ...

数据文件路径为：metadata.jsonl。

数据文件格式

每个 data.json 文件遵循以下结构： json "data": [ { "id": 0, "question": "string", "answers": [ { "answer": "string", } ], "qusetion_format": 0 } ]

问题格式

数据集包含五种问题格式：

代码	问题格式	描述
0	是非题	模型进行二元分类以判断陈述是真还是假。
1	多选题	模型从至少四个选项中选择一个或多个正确答案。
2	摘要题	模型被要求以自由格式总结给定图像的见解。
3	定位题	模型被要求以COCO格式提供目标对象的边界框。
4	封闭式（宽松）	模型以受限格式回答，通过LLM进行灵活的语义匹配评估。
5	封闭式（严格）	模型以受限格式回答，需要与真实答案完全匹配。

引用信息

bibtex @misc{wong2025marineevalassessingmarineintelligence, title={MarineEval: Assessing the Marine Intelligence of Vision-Language Models}, author={YuK-Kwan Wong and Tuan-An To and Jipeng Zhang and Ziqiang Zheng and Sai-Kit Yeung}, year={2025}, eprint={2512.21126}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.21126}, }

搜集汇总

数据集介绍

构建方式

在海洋科学领域，数据驱动的视觉语言模型评估长期缺乏专业基准，MarineEval的构建填补了这一空白。该数据集通过专家精心策划，收集了涵盖海洋生物、生态及环境等多元主题的真实图像，并围绕这些视觉内容设计了七类任务维度和二十项专业能力维度的问答对。构建过程强调知识的准确性与复杂性，每对问题与答案均经过领域专家严格验证，确保其不仅测试模型的通用视觉理解能力，更深入考察其对海洋特定场景、物种辨识及空间关系的专业认知。最终形成的两千个高质量样本，为评估模型在海洋领域的智能水平提供了坚实的数据基础。

使用方法

使用MarineEval进行模型评估时，研究者需遵循其结构化的数据组织方式。数据集以维度目录形式存储，每个子目录包含图像文件夹及对应的JSON格式元数据文件。评估流程通常涉及加载指定维度的图像与关联的问答对，利用待测视觉语言模型生成预测答案，随后根据问题格式代码所指示的评估标准进行比对。对于严格闭式问题，采用精确匹配；对于宽松闭式或概括类问题，则可借助大型语言模型进行语义相似度判断。通过系统性地遍历所有任务与能力维度，研究者能够获得模型在海洋智能方面的综合性能剖面，从而指导后续的领域适应性训练与优化。

背景与挑战

背景概述

随着视觉-语言模型在通用领域的快速发展，其在专业科学领域的应用潜力日益凸显，海洋科学作为一个高度依赖视觉观察与复杂知识推理的学科，亟需专门的评估基准来推动领域智能化进程。MarineEval数据集于2025年由香港科技大学的研究团队创建，作为首个大规模、专门用于评估视觉-语言模型海洋理解能力的基准，其核心研究问题在于系统衡量模型在海洋环境下的专业知识掌握、视觉推理及现实场景应对能力。该数据集涵盖了七个任务维度和二十个领域特定能力维度，包含两千个经过专家验证的图文问答对，旨在填补现有通用模型在海洋科学任务评估上的空白，为开发领域专家级视觉-语言模型、促进海洋研究与保护提供关键的数据支撑和评估标准。

当前挑战

MarineEval数据集致力于解决视觉-语言模型在海洋科学这一专业领域进行图像理解与问答时所面临的独特挑战，其核心问题包括模型在物种识别、空间关系推理及生态过程理解等复杂任务上的性能不足。构建过程中的挑战主要体现于专业知识的深度整合与高质量数据的获取：一方面，需要海洋生物学、生态学等多学科专家协作，确保问题设计涵盖从形态分类到行为互动的多层次知识，并保持科学严谨性；另一方面，海洋图像的采集受环境、伦理及物种稀有性限制，且标注工作需克服视觉模糊、类间相似性高等困难，以生成精确且具代表性的专家级答案，从而构建出既具现实复杂性又具评估可靠性的基准资源。

常用场景

经典使用场景

在海洋科学领域，MarineEval作为首个大规模视觉语言模型评估基准，其经典应用场景聚焦于系统性地评测模型在复杂海洋环境中的理解能力。该数据集通过涵盖物种识别、空间推理及生态认知等七个任务维度，为研究者提供了标准化的测试平台，用以衡量模型处理专业海洋图像与问答对的表现，从而推动领域内模型性能的量化比较与迭代优化。

解决学术问题

MarineEval致力于解决视觉语言模型在专业领域知识迁移不足的核心学术问题。传统通用模型在海洋任务中表现欠佳，尤其在空间推理与物种辨识等方面存在显著短板。该数据集通过引入专家验证的问答对，明确了模型在领域特定能力上的缺陷，为开发领域感知的训练与评估方法提供了实证基础，促进了跨学科研究中对专业化智能体的需求认知。

实际应用

在实际应用层面，MarineEval能够支持海洋保护与科研工作的智能化升级。例如，该数据集可应用于自动化海洋生物监测系统，辅助研究人员快速识别物种并分析生态互动；同时，其在视觉定位与摘要生成等任务上的设计，也为开发海洋环境诊断工具或教育科普平台提供了数据支撑，助力于提升海洋资源管理与公众认知的效率。

数据集最近研究