ORCA

Name: ORCA
Creator: 香港科技大学, 电子科技大学, 印度洋基金会
Published: 2025-12-24 20:36:57
License: 暂无描述

arXiv2025-12-24 更新2025-12-26 收录

下载链接：

https://orca.hkustvgd.com

下载链接

链接失效反馈

官方服务：

资源简介：

ORCA是由香港科技大学和印度洋基金会联合构建的多模态海洋生物基准数据集，包含14,647张图像，涵盖478个物种，具有42,217个边界框标注和22,321个专家验证的实例描述。数据集通过Google Images、Flickr和iNaturalist等平台收集，并经过严格的质量控制和专家验证，标注内容包括形态特征、空间位置、环境背景等生物学关键属性。该数据集支持对象检测、实例描述和视觉定位等计算机视觉任务，旨在解决海洋物种识别中的形态重叠和领域专业知识缺乏等挑战，推动海洋生态监测和保护研究。

ORCA is a multimodal marine life benchmark dataset jointly constructed by the Hong Kong University of Science and Technology and the Indian Ocean Foundation. It contains 14,647 images covering 478 species, with 42,217 bounding box annotations and 22,321 expert-validated instance descriptions. The dataset is collected from platforms including Google Images, Flickr and iNaturalist, and undergoes strict quality control and expert validation. Its annotations cover key biological attributes such as morphological features, spatial locations and environmental backgrounds. This dataset supports computer vision tasks including object detection, instance description and visual grounding, aiming to address challenges like morphological overlap and lack of domain expertise in marine species identification, and promote marine ecological monitoring and conservation research.

提供机构：

香港科技大学, 电子科技大学, 印度洋基金会

创建时间：

2025-12-24

搜集汇总

数据集介绍

构建方式

在海洋生物多样性监测领域，数据集的构建质量直接关系到模型对复杂生态系统的理解能力。ORCA数据集的构建采用了系统化的多阶段流程，首先通过GPT-4生成海洋物种的通用名称，并据此从Google Images、Flickr和iNaturalist等平台收集候选图像，经人工筛选确保图像质量与多样性。随后，结合Segment Anything Model（SAM）与人工点提示生成物体掩码，并转换为边界框，确保对海洋生物特殊形态的完整覆盖。针对每个边界框，利用MarineGPT生成实例级描述，最后由海洋生物学专家依据形态特征、空间语境、环境背景和行为线索四个维度进行验证与精修，形成了兼具视觉定位与语义深度的多模态标注体系。

特点

ORCA数据集在海洋视觉理解领域展现出鲜明的专业特性。其覆盖了478个物种、670个通用类别，提供了14,647张图像、42,217个边界框标注以及22,321条经过专家验证的实例描述，实现了从鱼类到哺乳类、鸟类等多门类生物的广泛涵盖。该数据集的核心优势在于其密集的实例级标注，每个边界框均配有融合领域知识的生物学描述，能够捕捉颜色、形状、行为等诊断性特征。与现有数据集相比，ORCA在视觉与文本监督之间取得了平衡，支持封闭集与开放词汇检测、实例描述生成和视觉定位等多种任务，并通过类级、类内和类间三种评估设置，系统考察模型在形态重叠物种间的细粒度识别能力。

使用方法

ORCA数据集为海洋视觉研究提供了多维度的评估框架。在对象检测任务中，研究者可利用其边界框与类别标注，评估模型在封闭集及开放词汇设置下的定位与分类性能，特别关注模型在形态相似物种间的区分能力。对于实例描述任务，该数据集提供的生物学描述可用于训练或评估视觉-语言模型生成细粒度、领域相关文本的能力。在视觉定位任务中，用户可将文本描述作为查询，测试模型在图像中准确关联与定位特定实例的效能。数据集支持零样本和微调两种实验范式，并已对18种前沿模型进行了基准测试，为方法比较与性能提升提供了可靠依据。

背景与挑战

背景概述

海洋视觉理解对于监测与保护海洋生态系统、实现自动化与可扩展的生物调查至关重要。然而，该领域的发展长期受限于训练数据的匮乏以及缺乏能够将特定领域挑战与明确定义的计算机视觉任务相对齐的系统化任务框架。为填补这一空白，香港科技大学、电子科技大学及印度洋基金会的研究团队于2025年联合发布了ORCA数据集。该数据集旨在通过多模态基准推动海洋研究，其核心研究问题聚焦于如何利用计算机视觉技术，实现对海洋物种的细粒度对象识别与深度语义理解，从而支持生物多样性档案构建与生态监测。ORCA包含来自478个物种的14,647张图像，提供了42,217个边界框标注和22,321个经过专家验证的实例级描述，以其广泛的分类学覆盖度和高质量的视觉-语言标注，为海洋领域的算法评估与模型开发奠定了重要基础。

当前挑战

ORCA数据集致力于解决海洋视觉理解中的核心挑战，即在复杂水下环境中实现对多样且形态相似的海洋物种进行精确的对象检测、识别与语义描述。该领域问题的具体挑战体现在物种间高度的形态重叠性，使得仅依赖视觉特征难以区分近缘物种；同时，开放词汇检测要求模型能够识别训练未见的新物种。在数据集构建过程中，挑战主要来自高质量标注的获取。海洋生物形态多变且常具有透明部分，确保边界框完整覆盖目标实例需耗费大量人工校验。此外，生成兼具领域专业性与实例特异性的描述文本是一大难点，需要结合大型语言模型生成与海洋生物学家的逐条验证，以克服通用描述模型输出粗糙、缺乏关键生物学特征的问题。

常用场景

经典使用场景

在海洋生物多样性监测与保护领域，ORCA数据集为计算机视觉模型提供了大规模、细粒度的训练与评估基准。其最经典的使用场景在于支持开放词汇目标检测任务，模型能够利用数据集提供的丰富视觉-语言对齐信息，识别并定位训练阶段未见过的海洋物种。通过设置类级、类内和类间三种评估范式，该数据集系统性地检验了模型在形态重叠物种间的区分能力，为海洋开放环境下的物种自动识别提供了关键的技术验证平台。

实际应用

在实际应用中，ORCA数据集为构建自动化、可扩展的海洋生物调查系统提供了数据基础。基于该数据集训练的模型可部署于自主水下航行器或固定监测站点，实现对珊瑚礁、海草床等生态系统中多种生物的实时识别、计数与行为记录。其提供的实例级描述能力，能够自动生成符合生物学规范的观测报告，显著提升海洋保护区资源管理、生物入侵监测以及渔业资源评估的效率和精度，助力海洋科学研究和保护政策的制定。

衍生相关工作

ORCA数据集的发布催生了一系列专注于海洋细粒度视觉理解的衍生研究。在方法论层面，研究者在DECOLA等开放词汇检测模型的基础上，探索了语言条件化查询策略在区分形态相似物种上的优势。同时，针对其实例描述任务，工作如对MiniGPT-4的领域微调，验证了专用数据对提升模型生成科学、准确描述的关键作用。这些研究共同深化了视觉-语言模型在专业领域的适应性问题，为后续开发如MarineGPT等海洋专用基础模型奠定了坚实的基准和方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集