scampi-benchmark

github2025-05-20 更新2025-05-22 收录

下载链接：

https://github.com/equinor/scampi-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

在我们的出版物中使用的基准测试数据：来自井NO 6407/6-5的20个属的697张标记图像，包括甲藻囊和其他孢粉形态。这些图像根据挪威开放政府数据许可证（NLOD）2.0分发，是对挪威离岸管理局创建的孢粉学幻灯片扫描的改编。

Benchmark dataset used in our publications: 697 annotated images of 20 genera from Well No. 6407/6-5, including dinocysts and other palynomorphs. These images are distributed under the Norwegian Open Government License (NLOD) 2.0, and are adapted from scans of palynological slides created by the Norwegian Offshore Management Authority.

创建时间：

2025-04-25

原始信息汇总

Scampi Benchmark 数据集概述

数据集基本信息

名称：Scampi Benchmark
用途：用于比较微化石图像特征提取方法的性能
数据量：697张标注图像
类别：20个甲藻囊和其他孢粉形态的属
来源：来自NO 6407/6-5井的微化石图像
许可证：Norwegian Licence for Open Government Data (NLOD) 2.0

数据集内容

图像来源：挪威离岸管理局的孢粉学幻灯片扫描
标注：由专家Martin Pearce完成

下载资源

模型权重：包括仅主干网络和完整检查点
训练参数：提供详细的训练参数和日志文件

使用说明

依赖安装：通过conda环境安装必要依赖
评估复现：运行run_evaluation.py以复现论文中的评估结果
示例代码：提供example_usage.py展示如何使用ViT-S模型创建图像嵌入

贡献与致谢

贡献：欢迎公开模型和开放许可证的PR
致谢：感谢Equinor和Martin Pearce的贡献

搜集汇总

数据集介绍

构建方式

在古生物学与计算机视觉交叉领域，scampi-benchmark数据集通过精心筛选挪威近海NO 6407/6-5井的697张微体化石图像构建而成，涵盖20个甲藻孢囊及其他孢粉形态属种。原始数据源自挪威海洋管理局公开的孢粉学玻片扫描影像，遵循挪威开放政府数据许可协议（NLOD 2.0）进行合规性处理。该数据集作为《The 3-billion fossil question》系列研究的核心基准，采用自监督学习框架训练深度神经网络，其构建过程包含数据清洗和特征增强环节，显著提升了内容检索与分类任务的性能表现。

特点

该数据集以高精度标注的微体化石图像为特色，通过t-SNE可视化证实其嵌入特征具有显著的类别区分度。相较于Meta的DINO基准模型，配套发布的SCAMPI ViT-S/16模型在nn f1指标上达到0.91，p@n_k指标提升36%，展现出专业领域特征提取的优越性。数据集同时提供完整的训练参数日志和四种网络架构对比数据，为古生物图像分析建立了可复现的评估基准。

使用方法

使用者可通过conda环境快速部署依赖库，运行example_usage.py脚本即可生成图像嵌入特征。研究复现需执行run_evaluation.py评估脚本，该流程支持对比SCAMPI与DINO系列ViT模型在微体化石分类任务中的性能差异。数据集配套提供骨干网络权重与完整检查点下载，用户可根据下游任务需求灵活选择，所有模型均托管于HuggingFace平台并附带详细的训练参数记录。

背景与挑战

背景概述

Scampi Benchmark数据集由挪威UiT大学与能源公司Equinor联合开发，作为SFI Visual Intelligence联盟项目的重要组成部分，旨在解决微体化石图像自动分类这一关键科学问题。该数据集于2024年随研究论文《The 3-billion fossil question: How to automate classification of microfossils》正式发布，包含来自挪威近海NO 6407/6-5井的697张标记图像，涵盖20个甲藻囊孢和其他孢粉形态属。数据集基于挪威政府开放数据许可协议发布，其创新性在于采用自监督学习方法构建深度神经网络，显著提升了微体化石图像特征提取的效能，为古生物学和油气勘探领域的自动化分析提供了重要技术支撑。

当前挑战

Scampi Benchmark面临的核心挑战主要体现在两个方面：在领域问题层面，微体化石图像存在形态多样性高、类间差异细微等特性，传统特征提取方法难以捕捉其鉴别性特征；在数据集构建层面，化石样本标注依赖专业古生物学知识，标注成本高昂且易受主观因素影响。此外，微体化石图像常存在光照不均、背景复杂等技术难题，对特征提取算法的鲁棒性提出更高要求。该数据集通过对比自监督学习与监督学习方法，为解决这些挑战提供了新的研究范式。

常用场景

经典使用场景

在古生物学和地质学研究中，微化石图像的分类和特征提取一直是一项具有挑战性的任务。scampi-benchmark数据集通过提供697张标记图像，涵盖了20个不同的甲藻孢囊和其他孢粉形态类别，为研究人员提供了一个标准化的基准平台。该数据集特别适用于评估和比较不同特征提取方法在微化石图像分类任务中的性能，尤其是在自监督学习领域。研究人员可以利用该数据集训练和测试深度神经网络模型，从而优化微化石图像的特征表示和分类效果。

解决学术问题

scampi-benchmark数据集解决了微化石图像分类中的关键学术问题，包括如何高效提取图像特征以及如何实现自动化分类。通过引入自监督学习方法，该数据集显著提升了深度神经网络在微化石图像特征提取中的表现。其提供的基准数据和预训练模型为研究人员提供了一个可复现的实验环境，推动了计算机视觉与古生物学的交叉研究。该数据集的意义在于为大规模微化石分类任务提供了技术基础，并为相关领域的算法优化和模型比较提供了可靠依据。

衍生相关工作

围绕scampi-benchmark数据集已衍生出多项重要研究工作，其中包括基于自监督学习的特征提取网络SCAMPI ViT的开发和优化。该数据集还促进了与Meta的DINO ViT模型的性能比较研究，为视觉Transformer在微化石图像分析中的应用提供了新思路。后续工作进一步探索了数据预处理对下游任务性能的影响，推动了基于内容的图像检索（CBIR）技术在古生物学领域的应用发展。

以上内容由遇见数据集搜集并总结生成