orchid-ncd-dataset

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/marcellorusso/orchid-ncd-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

OrchID NCD 是一个用于兰花分类任务的图像数据集，专注于意大利国家生物多样性中心（NCD）研究区域的 Ophrys 兰花物种。数据集包含6个类别，分别是 O. exaltata、O. garganica、O. incubacea、O. majellensis、O. sphegodes 和 O. sphegodes Palena。数据来源包括私人采集和互联网，训练集总计2017张图像，测试集每类50张图像，总计300张。数据集通过严格的划分（种子42）确保无数据泄漏，并提供了数据结构和下载方式。数据集适用于图像分类任务，特别是植物学和生物多样性研究领域。

OrchID NCD is an image dataset for orchid classification tasks, focusing on Ophrys orchid species in the research area of the Italian National Biodiversity Center (NCD). The dataset contains 6 categories: O. exaltata, O. garganica, O. incubacea, O. majellensis, O. sphegodes, and O. sphegodes Palena. The data sources include private collections and the internet, with a total of 2017 images in the training set and 50 images per category in the test set, totaling 300 images. The dataset ensures no data leakage through strict division (seed 42) and provides data structure and download methods. It is suitable for image classification tasks, especially in the fields of botany and biodiversity research.

创建时间：

2026-04-24

原始信息汇总

数据集概述

OrchID NCD 是一个用于兰科植物分类的6类别图像数据集，专注于意大利国家生物多样性中心（NCD） 研究区域内的蜂兰属（Ophrys） 物种。

关键信息

任务类型：图像分类
许可协议：MIT
数据规模：1,000 < n < 10,000
标签/主题：生物学、花卉、兰花、蜂兰属

数据集结构

数据集分为训练集和测试集，目录结构如下：

train_clean/ O. exaltata/ O. garganica/ O. incubacea/ O. majellensis/ O. sphegodes/ O. sphegodes_Palena/ test_clean/ O. exaltata/ O. garganica/ O. incubacea/ O. majellensis/ O. sphegodes/ O. sphegodes_Palena/ split_manifest.json create_clean_split.py

类别与样本分布

类别	训练集数量	测试集数量	数据来源
O. exaltata	446	50	私人 + 互联网
O. garganica	517	50	私人 + 互联网
O. incubacea	312	50	私人 + 互联网
O. majellensis	152	50	仅私人
O. sphegodes	380	50	私人 + 互联网
O. sphegodes Palena	210	50	仅私人
总计	2017	300

数据集划分特点

随机种子：42（可复现）
测试集：每类50张图片，类别平衡，从所有来源中抽出
零数据泄露：通过MD5哈希比较训练集和测试集得到验证
重复图片处理：在私人来源和互联网来源之间发现15张重复图片（内容相同，文件名不同），已从训练集中移除
来源类测试集：从互联网来源的类别使用 internet_cropped 测试，仅私人来源的类别使用 raw 测试

划分原因

之前的实验因训练集包含测试图像的增强版本或与测试来源重叠的数据集而导致数据泄露。本次划分通过 create_clean_split.py 创建，确保零内容重叠。

下载方式

python from huggingface_hub import snapshot_download

snapshot_download( repo_id="marcellorusso/orchid-ncd-dataset", repo_type="dataset", local_dir="dataset", )

引用说明

如果使用该数据集，请引用随附的论文（详细信息待定）。

搜集汇总

数据集介绍

构建方式

该数据集聚焦于意大利国家生物多样性研究中心（NCD）区域内的Ophrys属兰花物种分类任务，精心构建了一个包含6个类别的图像数据集。数据来源融合了私人采集与互联网公开资源，其中O. majellensis与O. sphegodes Palena两类完全源自私人采集，其余类别则采用混合来源。为确保数据纯净性，研究团队通过MD5哈希比对验证了训练集与测试集之间无任何内容泄露，并剔除了15张因跨来源而内容重复的图像。最终训练集包含2017张图像，测试集则按每类50张保持平衡，所有分割操作均基于固定种子42以确保可重复性。

特点

该数据集的核心优势在于其严格的数据泄露防护机制，通过MD5哈希校验彻底避免了训练集与测试集之间的内容重叠，为模型评估提供了可靠的基准。类别设计上，除了常规的五个Ophrys物种外，特别包含了O. sphegodes的一个独特地理种群（Palena），为研究亚种间细微形态差异提供了数据支撑。数据来源的多样性（私人+互联网）增强了样本的鲁棒性，而私有来源类别（如O. majellensis）则贡献了更具本土特色的视觉特征。

使用方法

数据集可直接通过Hugging Face Hub的snapshot_download函数下载，指定仓库ID为marcellorusso/orchid-ncd-dataset，并设置本地目录即可完整获取。下载后的数据遵循train_clean与test_clean的标准目录结构，每个子文件夹以物种拉丁学名命名，便于与主流深度学习框架（如PyTorch的ImageFolder）无缝对接。随附的split_manifest.json文件记录了分割细节，而create_clean_split.py脚本则展示了原始分割逻辑，使用者可据此复现或调整实验设置。

背景与挑战

背景概述

OrchID NCD数据集专为意大利国家生物多样性研究中心（NCD）研究区域内的Ophrys属兰花物种分类而构建。该数据集创建于2024年，由Marcello Russo等研究人员主导，旨在解决细粒度图像分类领域中因物种间形态高度相似所导致的分类难题。通过整合私有野外采集图像与互联网公开资源，数据集涵盖了6个关键分类单元，总计2317张高分辨率图像，并采用严格的MD5哈希比对确保训练集与测试集零数据泄露。这一严谨的构建标准使其成为评估深度学习模型在生物多样性监测中细粒度分类能力的基准，显著推动了基于视觉的珍稀兰科植物自动识别技术的发展。

当前挑战

该数据集面临的核心挑战在于Ophrys属兰花的物种间表型差异极为细微，且同种个体因生长环境不同呈现显著形态变异，这要求模型具备超越传统图像分类任务的细粒度判别能力。构建过程中，研究人员需克服数据获取难题：私有数据集采集受限于物种稀有性与地理分布，而互联网来源图像在分辨率、拍摄角度及背景上存在严重异质性。更为棘手的是，前期实验发现不同来源图像间隐含复制与近似复制问题，通过系统性哈希比对与人工校验排除了15个潜在泄露样本，最终才促成这一高质量基准集的诞生。

常用场景

经典使用场景

在细粒度图像分类领域，OrchID NCD数据集为兰科植物Ophrys属的物种识别提供了宝贵的基准资源。该数据集聚焦于意大利国家生物多样性研究中心关注的六个近缘物种，包含2017张训练图像与300张测试图像，类别间形态高度相似，是检验深度学习模型区分细微特征能力的理想平台。研究者常利用该数据集评估卷积神经网络或视觉Transformer在少数类样本、类间相似性极高情境下的分类性能，尤其适用于探索数据增强、对比学习与注意力机制对细粒度识别效果的提升作用。

衍生相关工作

基于OrchID NCD数据集，学术界衍生出多项经典工作，包括设计针对近缘物种的判别性特征学习方法，如引入子类感知对比学习或知识蒸馏策略来缓解类间混淆。另有研究探索了生成对抗网络在扩充私有类样本以提升分类鲁棒性的应用。该数据集还催生了若干关注数据泄露检测与评估的基准工作，推动了图像分类中训练-测试分割规范性的标准化讨论。这些衍生研究共同丰富了细粒度生态图像分析的理论与方法体系。

数据集最近研究