ORCA

Name: ORCA
Creator: 帕德博恩大学计算机科学系
Published: 2020-10-30 01:18:08
License: 暂无描述

arXiv2020-10-30 更新2024-06-21 收录

下载链接：

https://w3id.org/dice-research/orca

下载链接

链接失效反馈

官方服务：

资源简介：

ORCA是由德国帕德博恩大学计算机科学系创建的合成数据网络基准，旨在公平评估数据网络爬虫的性能。该数据集包含超过1200个合成数据集，这些数据集是从真实数据网络中抽样统计生成的。ORCA通过创建一个与原始网络分离的合成数据网络，确保了爬虫性能比较的公平性和可重复性。该数据集主要用于评估爬虫的效率和效果，解决数据网络爬虫在实际应用中的性能评估问题。

ORCA is a synthetic data web benchmark developed by the Department of Computer Science at the University of Paderborn, Germany, for the fair evaluation of web crawler performance. This dataset includes over 1,200 synthetic datasets generated through statistical sampling from real-world web data. By constructing a synthetic data web isolated from the original network, ORCA ensures the fairness and reproducibility of crawler performance comparisons. This dataset is primarily used to assess the efficiency and effectiveness of crawlers, addressing the performance evaluation issues faced by web crawlers in practical applications.

提供机构：

帕德博恩大学计算机科学系

创建时间：

2019-12-17

搜集汇总

数据集介绍

构建方式

在海洋生物多样性监测领域，数据集的构建质量直接决定了模型对复杂水下环境的理解能力。ORCA数据集的构建遵循系统化流程，首先通过GPT-4生成常见物种名称，从Google Images、Flickr和iNaturalist等平台采集候选图像，并经过人工筛选确保图像质量与多样性。随后利用Segment Anything Model结合人工点提示生成对象掩码，并转换为边界框，确保对海洋生物非规则形态的完整覆盖。针对每个边界框，采用MarineGPT生成初步描述，最后由海洋生物学专家依据形态特征、空间语境、环境背景及行为线索四个维度进行精细化验证与修正，形成兼具科学准确性与描述丰富性的实例级标注。

特点

ORCA数据集在海洋视觉理解领域展现出鲜明的特色。其覆盖478个物种、670个常见名称类别，具备广泛的生物分类学覆盖度。数据集提供42,217个边界框标注与22,321个专家验证的实例描述，实现了视觉与语言模态的均衡监督。实例级密集描述深度融合了领域知识，能够捕捉物种的形态学属性、行为模式及生境信息，有效应对近缘物种间形态重叠的识别挑战。与现有数据集相比，ORCA在标注密度、词汇多样性与任务支持广度上均具有显著优势，为细粒度海洋生物分析奠定了坚实基础。

使用方法

ORCA数据集支持计算机视觉与语言理解的多种任务范式，为海洋研究提供了多维评估基准。在对象检测任务中，数据集支持闭集与开放词汇检测，并设计了类级别、类内及类间三种评估设置，以系统考察模型在形态重叠场景下的识别鲁棒性。实例描述生成任务可利用边界框与描述对，训练或评估模型生成具备领域特异性的细粒度描述。视觉定位任务则通过将自然语言描述与图像区域对齐，评估模型在复杂海洋环境中的指代理解能力。研究人员可通过微调现有模型或开发新算法，利用ORCA推动海洋专属视觉语言模型的发展。

背景与挑战

背景概述

海洋视觉理解对于监测与保护海洋生态系统、实现自动化与可扩展的生物调查至关重要。然而，该领域的发展长期受限于训练数据的匮乏，以及缺乏能够将海洋领域特定挑战与明确定义的计算机视觉任务相对齐的系统化任务框架。为弥合这一鸿沟，香港科技大学、电子科技大学及印度洋基金会的研究团队于2025年联合发布了ORCA数据集。作为首个专为海洋研究设计的大规模多模态基准，ORCA汇集了来自478个物种的14,647张图像，包含42,217个边界框标注与22,321条经专家验证的实例级描述。其核心研究问题在于通过提供细粒度的视觉与文本标注，支持对象检测、实例描述与视觉定位等任务，从而推动面向海洋生物多样性归档的识别与理解技术发展，对海洋生态学、资源管理与计算机视觉的交叉领域产生了深远影响。

当前挑战

ORCA数据集旨在解决的领域核心挑战是海洋场景下的细粒度视觉理解，具体涵盖开放词汇对象检测、实例级描述生成以及视觉定位。这些任务面临的主要困难源于海洋物种极高的形态多样性、类间形态重叠导致的识别模糊性，以及专业领域知识（如诊断性状、行为与环境背景）的融合需求。在数据集构建过程中，挑战同样显著：首先，海洋生物形态多变且常具透明或纤细结构，确保边界框完整涵盖目标实例需结合SAM模型与人工点提示进行精细调整；其次，生成兼具生物学准确性与描述丰富度的实例级描述是一大难点，需利用MarineGPT生成初稿后，再由领域专家沿形态特征、空间上下文、环境背景与行为线索四个维度进行验证与精修，此过程耗时且要求极高的专业知识；此外，数据收集需平衡广泛的分类学覆盖与地理代表性，同时避免常见名称指向高级分类群所引发的歧义，这进一步增加了构建的复杂性。

常用场景

经典使用场景

在海洋生物多样性监测与保护领域，ORCA数据集为计算机视觉模型提供了系统性的训练与评估基准。其最经典的使用场景在于支撑开放词汇目标检测任务，模型能够利用数据集中丰富的实例级边界框与密集描述，识别并定位训练阶段未曾见过的海洋物种。该场景特别针对海洋环境中物种形态高度重叠、分类体系复杂的挑战，通过语言条件化的查询机制，将视觉特征与文本概念对齐，从而实现对广阔海域中未知生物的有效发现与鉴别。

解决学术问题

ORCA数据集系统性地解决了海洋视觉理解研究中长期存在的两大核心问题：训练数据局限性与任务定义失配。传统数据集往往局限于有限的地理区域与预定义类别，缺乏足够的分类学多样性与生态覆盖度。ORCA通过提供涵盖478个物种、包含数万实例级边界框与专家验证描述的多元模态数据，打破了这一瓶颈。同时，它将粗粒度的图像分类任务细化为实例级的检测、描述与视觉定位，使任务定义更贴合海洋生物学中需精确记录物种形态、行为与生境的实际需求，为构建可扩展的自动化生物调查体系奠定了数据基础。

衍生相关工作

ORCA数据集的发布催生了一系列围绕海洋领域视觉语言理解的衍生研究工作。在方法论层面，它推动了如DECOLA等语言条件化检测模型在细粒度开放词汇识别上的应用与优化，证明了结合视觉与文本模态对于克服物种形态重叠难题的有效性。同时，该数据集为MiniGPT-4等通用视觉语言模型提供了高质量的领域适应微调数据，显著提升了模型在生成海洋生物特异性描述方面的性能。这些工作共同深化了对于如何将大规模预训练模型有效迁移至高度专业化、数据稀缺的海洋科学领域的理解，为后续开发专用海洋基础模型指明了方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集