marcellorusso/orchid-ncd-dataset

Name: marcellorusso/orchid-ncd-dataset
Creator: marcellorusso
Published: 2026-05-02 16:16:18
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/marcellorusso/orchid-ncd-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

OrchID-NCD — Ophrys兰花分类数据集是一个包含6个极细粒度类别的Ophrys兰花物种的图像数据集，用于分类任务。这些物种在地中海地区常见，形态极为相似，即使是专家也难以区分，因此这是一个极具挑战性的分类基准。数据集包含来自私人采集和互联网的图像，经过Faster R-CNN裁剪、MD5去重和字母框调整大小等预处理步骤，确保训练集和测试集之间没有数据泄漏。数据集还提供了不同尺寸的裁剪版本，适用于ResNet、ConvNeXt和DINOv2等不同的神经网络架构。

OrchID-NCD — Ophrys Orchid Classification Dataset is a 6-class ultra-fine-grained image dataset for Ophrys orchid species classification from the Ophrys sphegodes complex — a group of Mediterranean orchids known for extreme morphological similarity and frequent hybridization. The dataset includes images from private collections and the internet, preprocessed with Faster R-CNN cropping, MD5 deduplication, and letterbox resizing to ensure no data leakage between train and test sets. It also provides cropped versions in different sizes suitable for various neural network architectures like ResNet, ConvNeXt, and DINOv2.

提供机构：

marcellorusso

搜集汇总

数据集介绍

构建方式

OrchID-NCD数据集的构建立足于对地中海地区Ophrys sphegodes类群中六种极度相似兰花的精细分类需求。原始图像采集自私人田野摄影与互联网资源，经Faster R-CNN模型自动检测并裁剪出花朵主体区域，再通过MD5内容哈希去重以确保训练集与测试集之间零数据泄露。最终采用Letterbox缩放策略，按目标架构分别生成256×512和224×224两种尺寸的预处理版本，并严格依照固定随机种子进行分层抽样，每类分配50张测试图像，其余作为训练数据。

特点

该数据集以超高细粒度分类为核心特点，六种兰花花色、形态高度雷同，即便是专家也难以凭肉眼区分，由此构成了极具挑战性的基准任务。数据来源包含私有田野图像和互联网公开图片，覆盖了更广泛的自然变异，同时通过严格的去重流程杜绝了以往研究中常见的数据污染问题。此外，数据集同时提供原始图像与裁剪缩放后的标准格式，兼顾了自定义预处理与直接训练两种研究路径的灵活性。

使用方法

研究者可通过Hugging Face的snapshot_download函数一键下载完整数据集至本地，而后借助torchvision的ImageFolder接口直接读取裁剪后的图像目录。以224×224版本为例，只需指定训练集根路径并组合ToTensor与标准化变换即可快速构建数据加载器，支持ResNet、ConvNeXt及DINOv2等多种主流视觉架构。对于希望自行设计预处理管线的用户，亦可直接使用raw文件夹内的原始图像，结合项目提供的Faster R-CNN检测模型重新进行花朵裁剪与数据划分。

背景与挑战

背景概述

OrchID-NCD数据集由研究人员Marcello Russo及其团队于近年创建，聚焦于地中海兰科植物中极度相似的蛛尾兰属（Ophrys sphegodes）复合群的细粒度分类问题。该数据集包含6个形态高度趋同的物种类别，共2532张图像，其中部分图像来自野外采集，部分源自互联网。其核心研究问题在于应对生物多样性数据中的超细粒度视觉识别挑战，并探索新颖类别发现（Novel Class Discovery）技术。作为首个专门针对该植物类群的公开基准，OrchID-NCD为计算机视觉与生态学的交叉领域提供了重要资源，推动了基于表征学习的物种自动鉴定方法发展。

当前挑战

该数据集所解决的领域问题极具挑战性：6个物种间的形态差异极其微小，即便是专业植物学家也常难以区分，形成了超细粒度图像分类的严苛测试场景。同时，数据集构建过程面临多重困难，包括数据获取阶段部分物种（如O. majellensis）在互联网上缺乏影像资料，仅能依赖私人采集；历史研究中的数据泄露问题迫使团队采用MD5内容哈希技术进行去重，确保训练集与测试集间零重叠；此外，还需通过Faster R-CNN模型对原始图像进行花朵检测与裁剪，并针对不同网络架构实施等比例缩放与填充处理，产生了标准化且可复现的多分辨率预处理流程。

常用场景

经典使用场景

在细粒度图像分类领域，OrchID-NCD数据集为鉴定形态极度相似的蜂兰属（Ophrys sphegodes复合种）物种提供了严苛的基准测试平台。该数据集涵盖六个类别的超细粒度分类任务，其中部分物种仅凭花朵的微观纹理与斑纹区别，即便植物学专家也常陷入辨识困境。研究者通常利用该数据集训练和评估深度学习模型在极端类间相似性条件下的分类性能，尤其在采用ResNet、ConvNeXt和DINOv2等架构时，通过预定义的256×512或224×224分辨率裁剪图像进行端到端训练与测试。数据集还创新性地引入了新类发现（Novel Class Discovery）研究范式，旨在探索模型在未标注新类别样本中的自主聚类与归纳能力，为生物多样性智能监测开辟了新道路。

实际应用

在实际生态保护与植物学研究场景中，OrchID-NCD数据集直接赋能自动化植物多样性监测系统的构建。传统上，对濒危或少见蜂兰物种的鉴别严重依赖有限专家的实地经验，耗时耗力且难以大规模推广。借助该数据集训练的深度学习模型，研究人员与保护组织能够部署移动端或无人机载的智能识别工具，快速从大量田野照片中鉴定出不同蜂兰物种，实现对特定栖息地物种丰度与分布变化的实时追踪。进一步地，该数据集衍生的新类发现能力可用于在未预先标注的野外图像中自动识别稀有或未知亚群，辅助生态学家制定精准保护决策。在线演示系统与公开代码仓库的同步发布，极大降低了技术门槛，使生物学家无需深厚编程背景也能利用预训练模型开展本地化调查。

衍生相关工作

基于OrchID-NCD数据集，研究社区已催生了一系列具有代表性的衍生工作。官方OrchID项目在发布数据集的同时，开源了完整的预处理流程（基于Faster R-CNN的花朵裁剪与正方形填充拼接管线）以及配套的预训练模型库，使研究者能直接复现基准结果并在此基础上快速迭代。在模型层面，已有工作探索了对比学习框架（如SimCLR、DINOv2）在该超细粒度任务上的表示学习能力，论证了自监督预训练在缓解标签稀缺问题上的优势。此外，该数据集为跨细粒度分类与开放世界识别的研究提供了桥梁——例如将新类发现算法与领域自适应技术结合，模拟物种调查中常见的目标群落随地理空间变化而更新换代的情景。这些工作不仅推进了计算机视觉的前沿算法，也为生态信息学中大规模物种智能化编目提供了可落地的技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集