MarineEval
收藏MarineEval 数据集概述
数据集基本信息
- 数据集名称: MarineEval
- 许可协议: cc-by-4.0
- 主要任务类别: 问答
- 语言: 英语
- 标签: 生物学
- 数据规模: 1K<n<10K
- 配置名称: default
数据集描述
MarineEval 是首个专门用于评估视觉语言模型海洋理解能力的大规模基准测试。该数据集包含 2,000 个经过专家验证的基于图像的问答对,涵盖 7 个任务维度和 20 个特定领域的能力维度,强调专业的海洋知识、视觉推理和现实世界的复杂性。通过对 17 个最先进的视觉语言模型进行全面基准测试,研究表明现有的通用模型在海洋任务上表现不佳,特别是在空间推理、物种识别和生态理解方面,这凸显了领域感知训练和评估的必要性。该资源旨在推动领域专家级视觉语言模型的进步,以促进海洋科学的研究和保护。
相关链接
- 主页: https://marineeval.hkustvgd.com/
- 论文: https://arxiv.org/abs/2512.21126
- GitHub仓库: https://github.com/ykwongaq/MarineEval
数据集结构
数据集结构如下:
dataset/ ├── dimension 1 │ ├── sub dimension 1 │ │ ├── images/ │ │ ├── data.json │ ├── sub dimension 1 │ │ ├── images/ │ │ ├── data.json ├── dimension 2 │ ├── sub dimension 1 │ │ ├── images/ │ │ ├── data.json ...
数据文件路径为:metadata.jsonl。
数据文件格式
每个 data.json 文件遵循以下结构:
json
"data": [
{
"id": 0,
"question": "string",
"answers": [
{
"answer": "string",
}
],
"qusetion_format": 0
}
]
问题格式
数据集包含五种问题格式:
| 代码 | 问题格式 | 描述 |
|---|---|---|
| 0 | 是非题 | 模型进行二元分类以判断陈述是真还是假。 |
| 1 | 多选题 | 模型从至少四个选项中选择一个或多个正确答案。 |
| 2 | 摘要题 | 模型被要求以自由格式总结给定图像的见解。 |
| 3 | 定位题 | 模型被要求以COCO格式提供目标对象的边界框。 |
| 4 | 封闭式(宽松) | 模型以受限格式回答,通过LLM进行灵活的语义匹配评估。 |
| 5 | 封闭式(严格) | 模型以受限格式回答,需要与真实答案完全匹配。 |
引用信息
bibtex @misc{wong2025marineevalassessingmarineintelligence, title={MarineEval: Assessing the Marine Intelligence of Vision-Language Models}, author={YuK-Kwan Wong and Tuan-An To and Jipeng Zhang and Ziqiang Zheng and Sai-Kit Yeung}, year={2025}, eprint={2512.21126}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.21126}, }




