imageomics/Heliconius-Collection_Cambridge-Butterfly
收藏Hugging Face2025-10-01 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/imageomics/Heliconius-Collection_Cambridge-Butterfly
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是剑桥大学Chris Jiggins研究小组近20年野外研究的蝴蝶图像集合,包含约36,189张RGB图像,涵盖11,962个标本。大多数图像是在标准化条件下使用DSLR相机和100毫米微距镜头拍摄的。数据集包含蝴蝶的背部和腹部图像,主要是分离的翅膀,也有一些完整的蝴蝶图像。图像内容存在差异(如背景颜色等)。数据集主要用于图像分类任务,包含多种蝴蝶种类和亚种,特别是Heliconius属的蝴蝶。数据集还包含实验室杂交和野外捕获的蝴蝶图像。
This dataset is a subset of the butterfly image collection from the research group of Chris Jiggins at the University of Cambridge, covering nearly 20 years of field studies. It contains approximately 36,189 RGB images of 11,962 specimens, primarily showcasing the dorsal and ventral views and separated wings of butterflies, with most images also having locality data. The dataset includes detailed metadata such as specimen classification information, image types, collection locations, and has undergone deduplication and standardization processes.
提供机构:
imageomics
搜集汇总
数据集介绍

构建方式
在进化生物学与图像组学交叉领域,Heliconius蝴蝶数据集通过系统化整合剑桥大学Jiggins研究组近二十年的野外采集与实验室繁育标本构建而成。数据源自29个Zenodo记录,采用标准化数码单反相机与微距镜头拍摄,涵盖约36,000张RGB图像,涉及11,962个标本。构建过程中,研究者对原始元数据进行清洗与标准化,通过MD5哈希值去重,并添加了亚种层面的拟态群标签,确保了数据的完整性与独特性。
特点
该数据集以蝴蝶翅膀的高分辨率图像为核心,突出呈现了Heliconius属的形态多样性,尤其聚焦于背腹面视角的翅膀分离图像。其显著特点在于包含了详尽的分类学元数据,涵盖物种、亚种、杂交类型及采集地信息,并特别标注了拟态群归属,为研究贝氏拟态与进化机制提供了多维标注。图像格式多样,包含RAW、JPG及TIFF文件,背景与色彩标准存在可控变异,体现了真实科研场景下的数据复杂性。
使用方法
使用者可通过提供的CSV主文件访问图像元数据,并利用配套脚本下载与校验图像文件。数据集支持基于分类学标签的图像分类任务,尤其适用于蝴蝶亚种识别、拟态群分析与杂交表型研究。为提升分析效果,建议预先进行图像分割处理,例如应用WingSeg工具分离翅膀区域,并对背景与色彩进行标准化。数据可无缝接入机器学习流程,并兼容Imageomics数据看板,便于可视化筛选与统计分布探索。
背景与挑战
背景概述
在进化生物学与计算视觉的交叉领域,Heliconius蝴蝶因其复杂的拟态现象而成为研究生物多样性形成机制的关键模型。Heliconius Collection (Cambridge Butterfly)数据集由剑桥大学Chris Jiggins研究团队历经近二十年野外研究积累而成,收录了约3.6万张蝴蝶标本的高清图像,涵盖背腹面视角、分离翅片及完整标本。该数据集的核心科学问题在于通过大规模视觉数据解析蝴蝶亚种间的拟态演化规律,特别是针对Heliconius erato与Heliconius melpomene等物种的杂交与多态性拟态现象。其系统化的图像标注体系,包括亚种分类、地理来源与拟态群信息,为演化发育生物学与图像分类算法提供了珍贵的跨学科研究资源。
当前挑战
该数据集面临的挑战主要体现在两方面:其一,在领域问题层面,蝴蝶拟态机制的视觉识别需克服亚种间形态相似性高、多态性拟态群体标注复杂等难题,传统分类模型难以区分高度相似的翅纹模式;其二,在数据构建过程中,图像采集跨越多年导致背景色彩、光照条件与拍摄标准存在差异,需进行色彩归一化与背景分割预处理。此外,部分标本仅标注至属或种级别,杂交个体缺乏明确的亚种标识,需通过人工核查与算法辅助完成标签校正。数据集中存在的原始图像格式混杂、标本重复拍摄等问题,亦对机器学习管道的标准化处理提出了技术性要求。
常用场景
经典使用场景
在进化生物学与计算视觉的交叉领域,Heliconius蝴蝶数据集为研究拟态现象的形态学变异提供了珍贵的图像资源。该数据集收录了约3.6万张蝴蝶标本的高清图像,涵盖背腹面视角及分离翅膀样本,其经典应用场景在于训练深度神经网络进行蝴蝶亚种与拟态群的自动分类。研究者可借助这些标准化图像,量化翅膀图案的细微差异,从而揭示拟态演化的遗传与生态机制。
衍生相关工作
基于该数据集衍生的经典工作包括WingSeg翅膀分割算法,实现了蝴蝶翅膀形态的自动化提取与几何测量。多项研究利用其杂交样本数据,构建了贝叶斯系统发育模型以推断拟态性状的遗传架构。此外,该数据集启发了跨模态学习框架的开发,将图像特征与基因组数据关联,为演化生物信息学开辟了新的方法论路径。
数据集最近研究
最新研究方向
在进化生物学与计算机视觉的交叉领域,Heliconius蝴蝶数据集正推动着对拟态现象机制的深度解析。该数据集整合了约3.6万张蝴蝶标本的高清图像,涵盖背腹视图、翅膀分离样本及实验室杂交个体,为研究拟态表型的遗传与发育基础提供了前所未有的视觉资源。当前前沿研究聚焦于利用深度学习模型,特别是基于注意力机制的视觉Transformer,从翅膀图案中自动识别拟态群并量化表型变异。这些工作不仅助力揭示拟态性状的基因组调控网络,还促进了生态形态计量学的新方法发展,为理解生物多样性形成与适应性进化提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成



