zjunlp/OceanInstruction

Name: zjunlp/OceanInstruction
Creator: zjunlp
Published: 2026-05-06 15:36:26
License: 暂无描述

Hugging Face2026-05-06 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/zjunlp/OceanInstruction

下载链接

链接失效反馈

官方服务：

资源简介：

OceanInstruction是一个专门为海洋领域多模态大语言模型（MLLMs）设计的指令调优数据集。数据经过严格筛选、去重和标准化处理，涵盖了从纯文本百科全书式问答、基于声纳图像的问答到RGB自然图像问答（涵盖生物标本和科学图表）的多种任务。数据集分为四个主要子集：Science（文本）、Sonar-field（图像+文本）、Sonar-Open（图像+文本）和Bio（图像+文本），总共有约142,000条训练指令。数据字段包括input（用户提示或查询）、output（预期真实响应）、thinking（可选，仅Science子集包含，包含思维链推理痕迹）和image_path（可选，仅多模态样本适用）。数据集来源于海洋领域的公开数据集、百科全书知识（如维基百科）和合成生成的数据，并经过严格去重和双语（中英文）文本格式化标准化处理。

OceanInstruction is an instruction-tuning dataset specifically designed for multimodal large language models (MLLMs) in the marine domain. The dataset has undergone rigorous screening, deduplication and standardization processing, covering a variety of tasks ranging from pure-text encyclopedic question answering, sonar image-based question answering to RGB natural image-based question answering (covering biological specimens and scientific diagrams). The dataset is divided into four main subsets: "Science" (text-only), "Sonar-field" (image + text), "Sonar-Open" (image + text), and "Bio" (image + text), with a total of approximately 142,000 training instructions. Its data fields include input (user prompts or queries), output (expected ground-truth responses), thinking (optional, only included in the "Science" subset, containing chain-of-thought reasoning traces), and image_path (optional, only applicable to multimodal samples). The dataset is sourced from public marine domain datasets, encyclopedic knowledge (such as Wikipedia) and synthetically generated data, and has undergone strict deduplication and bilingual (Chinese and English) text formatting standardization processing.

提供机构：

zjunlp

搜集汇总

数据集介绍

构建方式

OceanInstruction数据集精心构建于海洋领域的多模态大语言模型指令微调需求。其数据来源涵盖公开海洋数据集、维基百科等百科知识以及合成生成数据，经过严格去重、标准化和路径适配处理。数据集划分为四个子集：Science子集包含69,192条纯文本指令，涵盖海洋百科问答、科学问题及思维链推理数据；Sonar-field子集汇集44,211条图像-文本对，聚焦科学图表、温度浓度图及非声纳图像问答；Sonar-Open子集包含26,356条基于侧扫和前视声纳图像的目标识别与问答样本；Bio子集则提供1,365条经过严格筛选的高精度海洋生物分类数据，涵盖鱼类和珊瑚等物种。

使用方法

用户可通过HuggingFace的datasets库便捷加载OceanInstruction的指定子集。例如，使用load_dataset('zjunlp/OceanInstruction', 'Science')加载Science纯文本子集，使用load_dataset('zjunlp/OceanInstruction', 'Sonar-Open')加载声纳图像子集。加载后的数据可直接转换为Pandas DataFrame进行探索分析。每个样本包含input（用户查询）、output（期望回答）字段，Science子集额外提供thinking字段存储思维链推理过程，多模态样本则包含image_path字段指向关联图像。此外，项目还提供了包含RGB、Sonar、Visual三个子集的example数据集，每个子集随机抽取100条，方便用户快速测试与调试。

背景与挑战

背景概述

海洋科学作为探索地球生命起源与资源分布的关键领域，长期以来受到数据稀缺与模态单一的制约。为此，浙江大学等机构的研究人员于近期构建了名为OceanInstruction的专用指令微调数据集，旨在推动多模态大语言模型在海洋领域的应用。该数据集创建于2024年前后，核心研究问题是解决海洋科学知识问答、声纳图像理解及水下生物识别等多模态任务。通过整合百科全书知识、声纳影像与生物标本图像，OceanInstruction提供了约14.2万条高质训练样本，填补了海洋领域多模态指令数据的空白，对提升模型在海洋环境下的感知与推理能力具有重要影响。

当前挑战

OceanInstruction所面临的挑战首先体现在领域问题的复杂性上：海洋环境中的视觉数据（如声纳图像）噪声高、标注困难，传统图像分类方法难以直接适用，亟需设计能融合文本与声纳模态的跨域推理架构。同时，数据集构建过程亦面临多重障碍：涵盖文本、声纳与RGB图像的异构数据难以标准化整合，需经严格去重与路径统一处理；海洋生物样本的长尾分布导致高质量标注稀缺，仅1,365条生物学数据经过精细筛选；此外，双语指令数据的语义对齐与合成数据的真实性验证也构成了显著挑战。

常用场景

经典使用场景

在海洋科学与人工智能的交叉领域中，OceanInstruction作为首个面向海洋领域多模态大语言模型的指令微调数据集，其经典使用场景体现在对模型进行领域特定指令的精细化调优。研究者利用其包含的海洋百科知识问答、声纳图像目标识别、生物标本图像分类以及科学图表解读等多样任务，训练模型在海洋场景下准确理解并执行用户指令。该数据集特别适用于提升模型在声纳图像与RGB图像联合理解、海洋科学推理链条构建等方面的表现，为海洋领域的垂直应用奠定了数据基础。

解决学术问题

OceanInstruction有效解决了海洋领域大语言模型缺乏高质量、多模态指令数据的关键瓶颈。在学术研究中，该数据集填补了海洋科学知识问答系统、声纳图像自动解译以及海洋生物自动识别等方向的标注数据空白。通过提供涵盖文本、声纳图像、RGB图像及科学图表的统一指令格式，它助力研究者攻克跨模态对齐与领域知识融合的难题，推动了海洋科学智能分析从单一模态向多模态协同的范式转变，显著提升了模型在海洋垂直任务上的零样本与少样本泛化能力。

实际应用

在实际应用层面，OceanInstruction驱动的模型已展现出广泛的海洋场景适用价值。在海洋资源勘探中，模型可辅助解析侧扫声纳与前视声纳图像，快速识别海底目标，支持潜艇避障与水下救援决策。在海洋生态监测领域，该数据集训练的视觉问答系统能够自动分类珊瑚与鱼类物种，协助海洋生物学家高效完成生物多样性调查。此外，基于海洋百科知识指令调优的对话系统，在海洋科普教育、海洋灾害预警及渔业智能咨询等场景中，提供了专业且可交互的智能服务支撑。

数据集最近研究