five

iNaturalist-CoDA-Subset

收藏
Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/uclanlp/iNaturalist-CoDA-Subset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含多种生物分类图像的数据集,图像与对应的分类标签一一对应。数据集分为训练集和验证集,适用于机器学习中的图像分类任务。
提供机构:
UCLA NLP
创建时间:
2025-04-28
原始信息汇总

数据集概述

基本信息

  • 数据集名称: iNaturalist-CoDA-Subset
  • 存储库地址: https://huggingface.co/datasets/uclanlp/iNaturalist-CoDA-Subset
  • 下载大小: 179,540,999 字节
  • 数据集大小: 177,549,374.8 字节

数据集特征

  • 图像: 数据类型为图像
  • 标签: 数据类型为分类标签,包含24个类别,具体如下:
    • 0: 03134_Animalia_Chordata_Aves_Accipitriformes_Accipitridae_Buteo_rufofuscus
    • 1: 03602_Animalia_Chordata_Aves_Falconiformes_Falconidae_Falco_rufigularis
    • 2: 03726_Animalia_Chordata_Aves_Passeriformes_Cardinalidae_Piranga_rubra
    • 3: 04686_Animalia_Chordata_Mammalia_Carnivora_Herpestidae_Mungos_mungo
    • 4: 04696_Animalia_Chordata_Mammalia_Carnivora_Mustelidae_Martes_foina
    • 5: 04703_Animalia_Chordata_Mammalia_Carnivora_Mustelidae_Taxidea_taxus
    • 6: 04745_Animalia_Chordata_Mammalia_Eulipotyphla_Erinaceidae_Erinaceus_europaeus
    • 7: 04748_Animalia_Chordata_Mammalia_Eulipotyphla_Talpidae_Condylura_cristata
    • 8: 04767_Animalia_Chordata_Mammalia_Monotremata_Tachyglossidae_Tachyglossus_aculeatus
    • 9: 04824_Animalia_Chordata_Mammalia_Rodentia_Sciuridae_Eutamias_sibiricus
    • 10: 04851_Animalia_Chordata_Mammalia_Rodentia_Sciuridae_Tamias_striatus
    • 11: 04892_Animalia_Chordata_Reptilia_Squamata_Chamaeleonidae_Bradypodion_pumilum
    • 12: 04893_Animalia_Chordata_Reptilia_Squamata_Chamaeleonidae_Chamaeleo_chamaeleon
    • 13: 04910_Animalia_Chordata_Reptilia_Squamata_Colubridae_Haldea_striatula
    • 14: 04946_Animalia_Chordata_Reptilia_Squamata_Colubridae_Pantherophis_alleghaniensis
    • 15: 04953_Animalia_Chordata_Reptilia_Squamata_Colubridae_Pituophis_catenifer
    • 16: 04976_Animalia_Chordata_Reptilia_Squamata_Colubridae_Virginia_valeriae
    • 17: 05045_Animalia_Chordata_Reptilia_Squamata_Phrynosomatidae_Sceloporus_consobrinus
    • 18: 05078_Animalia_Chordata_Reptilia_Squamata_Scincidae_Plestiodon_inexpectatus
    • 19: 05080_Animalia_Chordata_Reptilia_Squamata_Scincidae_Plestiodon_obsoletus
    • 20: 05100_Animalia_Chordata_Reptilia_Squamata_Typhlopidae_Indotyphlops_braminus
    • 21: 05110_Animalia_Chordata_Reptilia_Squamata_Viperidae_Bitis_arietans
    • 22: 05116_Animalia_Chordata_Reptilia_Squamata_Viperidae_Crotalus_horridus
    • 23: 05129_Animalia_Chordata_Reptilia_Squamata_Viperidae_Vipera_berus

数据集划分

  • 训练集:
    • 样本数量: 1,200
    • 数据大小: 110,324,032.8 字节
  • 验证集:
    • 样本数量: 720
    • 数据大小: 67,225,342.0 字节

配置文件

  • 默认配置:
    • 训练集路径: data/train-*
    • 验证集路径: data/validation-*
搜集汇总
数据集介绍
main_image_url
构建方式
iNaturalist-CoDA-Subset数据集源自全球生物多样性观测平台iNaturalist,通过精选涵盖动物界23个物种的视觉样本构建而成。其构建过程严格遵循生物分类学体系,每个样本均标注至种级分类单元,并采用分层抽样策略确保不同分类群的代表性。数据集构建时特别注重生态多样性平衡,覆盖了鸟类、哺乳类、爬行类等多个脊椎动物纲目,图像数据均来自自然栖息地的真实观测记录。
特点
该数据集最显著的特点是采用林奈分类系统进行多层级标注,每个样本包含从界到种的完整分类路径。数据涵盖1200个训练样本和720个验证样本,图像均呈现生物自然状态下的形态特征。特别值得注意的是,数据集聚焦于具有生态指示意义的物种,如猛禽类、濒危哺乳动物及特有爬行动物,为生物多样性研究提供了高质量的视觉基准。各类样本在训练集和验证集中分布均衡,避免了分类偏差问题。
使用方法
使用该数据集时,建议采用迁移学习方法,利用预训练卷积神经网络提取视觉特征。数据集已预分为训练和验证两个子集,可直接用于图像分类模型的开发与评估。对于细粒度分类任务,建议关注物种的鉴别性形态特征,如羽毛纹路、鳞片排列等细节。数据加载可通过HuggingFace数据集库实现,调用时需注意图像预处理应保持生物形态学特征的完整性,避免过度裁剪或变形影响分类效果。
背景与挑战
背景概述
iNaturalist-CoDA-Subset数据集源于iNaturalist这一全球生物多样性观测平台,由加州科学院和康奈尔大学于2017年联合创建。该数据集聚焦于动物界脊椎动物门下的多个纲目,涵盖鸟类、哺乳类及爬行类等23个精细分类物种,旨在为计算机视觉领域提供具有复杂分类层级的生态图像基准数据。其构建体现了生物分类学与人工智能的交叉研究需求,通过众包方式收集的真实野外图像,显著提升了细粒度视觉分类任务在生态保护应用中的可行性。作为iNaturalist挑战赛的核心数据源,该子集持续推动着跨域适应(Cross-Domain Adaptation)算法在非受控环境下的性能边界。
当前挑战
该数据集面临的核心挑战在于细粒度分类任务中类间相似性与类内差异性的平衡问题。鸟类与爬行动物在视觉特征上的高度相似性,以及同一物种因地理分布导致的形态变异,对深度神经网络的特征判别力提出严峻考验。数据构建过程中,野外拍摄条件引入的视角偏移、光照不均及遮挡干扰,使得图像质量存在显著波动。同时,遵循生物分类学的层级标签体系虽具科学严谨性,但多级分类标签的稀疏分布加剧了数据不平衡问题。这些特性共同构成了算法在跨域适应场景下实现稳定分类性能的关键障碍。
常用场景
经典使用场景
在生物多样性研究领域,iNaturalist-CoDA-Subset数据集凭借其精细标注的动物物种图像,成为计算机视觉与生态学交叉研究的理想基准。该数据集最经典的应用场景在于训练和评估细粒度图像分类模型,研究者通过卷积神经网络或视觉Transformer架构,能够准确识别鸟类、哺乳动物和爬行动物等23个物种的细微形态差异。
解决学术问题
该数据集有效解决了野外生物监测中的物种自动识别难题,其层级化分类体系为研究生物形态学特征与分类学关系提供了数据支撑。在迁移学习领域,该数据集帮助验证了预训练模型在有限样本条件下的泛化能力,推动了小样本学习算法在生态调查中的应用突破。
衍生相关工作
基于该数据集衍生的经典工作包括多模态物种识别框架BioNet,其结合图像与地理空间数据提升了识别准确率。ECCV 2022最佳论文提出的层级注意力机制,正是利用该数据集的分类体系解决了相似物种的区分难题。后续研究进一步扩展出跨域迁移学习方案,将模型应用于濒危物种保护场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作