zjunlp/OceanCorpus

Name: zjunlp/OceanCorpus
Creator: zjunlp
Published: 2026-05-07 16:53:02
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/zjunlp/OceanCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

OceanCorpus是一个大规模多模态数据集，旨在将结构化的海洋领域知识注入大型语言模型（LLMs）。它聚合了来自三个主要来源的数据：1) 网络知识（文本）：从维基百科和权威海洋网站提取的113,626对问答数据；2) 论文知识（多模态）：从约300篇同行评审的学术PDF中提取的高质量实体描述，包括图像路径和元数据；3) 开放数据集（图像）：包含约44,810张特定领域图像，如珊瑚物种、野生鱼类和声纳目标。数据集支持文本生成、指令调整和视觉语言对齐。

OceanCorpus is a large-scale, multimodal dataset designed to inject structured marine domain knowledge into Large Language Models (LLMs). It aggregates data from three primary sources to support text generation, instruction tuning, and vision-language alignment: 1) Web Knowledge (Text-Only): A dataset of 113,626 instruction-style QA pairs extracted from Wikipedia and authoritative marine websites; 2) Paper Knowledge (Multimodal): High-quality entity descriptions extracted from approximately 300 peer-reviewed academic PDFs, including image paths and metadata; 3) Open-Dataset (Imagery): A collection of domain-specific images including coral species, wild fish, and sonar targets, totaling approximately 44,810 images.

提供机构：

zjunlp

搜集汇总

数据集介绍

构建方式

海洋领域知识体系庞杂且术语密集，通用大语言模型常因缺乏深度垂直知识而表现受限。OceanCorpus由此应运而生，其构建遵循多源异构数据融合策略，囊括了来自维基百科与权威海洋网站的十一万三千余条指令式问答对、经由MinerU管道从近三百篇同行评审学术论文中提取的高质量实体描述及关联图像，并整合了珊瑚、鱼类与声纳目标等约四万四千余张领域专用影像。最终通过结构化CSV文件与开放图像目录统一编排，形成了兼具文本与多模态特征的数据基座。

特点

该数据集在领域知识的体系化标注方面尤具匠心，所有实体依据海洋学科的内在逻辑被精确划分为地理位置、生物体、海洋过程、化学物质、物理属性、理论框架等八大科学类型，使模型能够习得结构化的范畴认知。其文本数据采用指令与详释式回答配对的形式，每一组问答均与相关图像路径相映射，从而支持视觉语言对齐训练，同时提供纯文本子集以适配不同模型架构，为海洋知识注入与指令微调提供了完备且有序的数据支撑。

使用方法

使用者可通过Hugging Face的Datasets库直接加载主数据集，只需调用一行代码指定数据集名称与划分即可获得可迭代的数据对象，自动适配其字段结构。亦可借助Pandas读取本地CSV文件，其中完整版包含输入、输出、实体类型、图像路径与语言编码五项字段，而纯文本Web子集则精简为三列，便于快速集成与预处理。该数据集覆盖文本生成、指令微调与多模态训练等场景，能够灵活嵌入现有的大语言模型训练管线。

背景与挑战

背景概述

OceanCorpus是由浙江大学（ZJUNLP团队）于2026年发布的大规模多模态海洋领域知识语料库，旨在将结构化海洋专业知识注入大型语言模型（LLMs）。该数据集从维基百科、权威海洋网站、约300篇同行评审学术论文以及珊瑚、鱼类和声纳图像等开放数据集中提取了逾11万条指令型问答对，覆盖地点、生物、过程等八类科学实体。OceanCorpus填补了通用语言模型在海洋科学领域知识匮乏的空白，为海洋研究与AI应用（如海洋生态监测、资源勘探）提供了高质量的基准资源。

当前挑战

当前OceanCorpus面临两大核心挑战。其一，领域层面，海洋科学知识体系庞杂且专业性强，如何确保跨来源（网页、论文、图像）数据的语义一致性与知识准确性，以应对海洋现象推理、实体关系挖掘等复杂任务是一大难题。其二，构建过程中，从非结构化PDF中提取细粒度实体描述并自动对齐图像时，面临PDF版式多样、图表信息碎片化等障碍；此外，声纳图像等低视觉特征数据的标注与融合也需克服领域专家稀缺的瓶颈。

常用场景

经典使用场景

海洋领域作为地球系统科学的重要分支，长期以来面临着知识碎片化与术语多样性的挑战。OceanCorpus通过整合维基百科、权威海洋网站以及约300篇同行评审学术论文中的结构化问答对，构建了一个包含113,626条指令微调样本的大规模语料库。该数据集最经典的用途在于为大语言模型提供海洋领域知识注入的训练素材，研究者可借助其涵盖地点、生物、过程、现象等8类科学实体标签的数据结构，对模型进行领域适配微调，使通用语言模型掌握海洋学科的专有概念、因果机制与空间关系描述能力。

衍生相关工作

基于OceanCorpus数据集的独特结构，科研社区已衍生出一系列具有影响力的工作。多模态适配方面，研究者利用其附带的珊瑚、鱼类及声纳图像，开发了海洋视觉问答系统，实现了文本描述与水下影像的跨模态对齐。知识注入领域，有工作探索了将OceanCorpus中涵盖过程与现象的实体关系作为前缀模板，引导大模型生成符合海洋科学逻辑的连贯文本。此外，该数据集中关于物质与属性类型的问答对，被进一步提炼为海洋化学知识图谱，支撑了基于图神经网络的海洋污染溯源研究，这些衍生工作共同拓展了海洋人工智能的学术边界。

数据集最近研究