imageomics/rare-species

Name: imageomics/rare-species
Creator: imageomics
Published: 2025-05-09 17:30:10
License: 暂无描述

Hugging Face2025-05-09 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/imageomics/rare-species

下载链接

链接失效反馈

官方服务：

资源简介：

Rare Species Dataset是一个包含稀有物种图片和相应文本的集合。这个数据集适用于图像分类和零样本分类等任务。图片来源于《生命大百科》（Encyclopedia of Life, EOL），包含了被国际自然保护联盟（IUCN）红名单列为近危、易危、濒危、极危和野外灭绝的物种。每个物种至少有30张图片，总共有400个物种。数据集结构包括元数据文件和一个包含树状图的视觉文件夹。数据集在许可方面有多种限制，但数据集本身已使用CC0公共领域弃权声明将其归入公共领域。

The Rare Species Dataset is a collection of images and associated text for rare species. This dataset is intended for tasks such as image classification and zero-shot classification. The images are sourced from the Encyclopedia of Life (EOL) and consist of species listed as Near Threatened, Vulnerable, Endangered, Critically Endangered, and Extinct in the Wild by the IUCN Red List. Each species has at least 30 images, and there are 400 species in total. The dataset is structured with metadata files and a visual folder containing treemaps. The data is available under various licensing restrictions, but the dataset compilation itself is dedicated to the public domain using the CC0 Public Domain Waiver.

提供机构：

imageomics

原始信息汇总

数据集概述

基本信息

名称: Rare Species Dataset
许可证: cc0-1.0
语言: 英语, 拉丁语
任务类别: 图像分类, 零样本分类
标签: 生物学, 图像, 动物, 物种, 分类学, 稀有物种, 濒危物种, 进化生物学, 平衡, 计算机视觉, 多模态, CLIP, 知识引导
大小类别: 10K<n<100K

数据集结构

配置:
- config_name: default
- data_files:
  - metadata.csv
  - dataset/*/*.jpg

数据实例

内容: 包含图像及其关联文本，文本包含从界到种的林奈分类法和科学名称。
图像格式: JPG
文件命名规则: <eol_content_id>_<eol_page_id>_eol_full-size-copy.jpg
物种数量: 400种
每种图像数量: 30张（部分物种数量不足）

数据字段

元数据文件: rarespecies-catalog.csv
- 包含图像的元数据，如分类信息和科学名称。
许可证文件: licenses.csv
- 包含图像的许可证、来源和版权持有者信息。

数据分割

用途: 用于测试BioCLIP模型。

数据集创建

来源数据: 来自Encyclopedia of Life (EOL) 和 International Union for Conservation of Nature (IUCN) Red List。
筛选标准: 从IUCN Red List中筛选出濒危等级为近危、易危、濒危、极危和野外灭绝的物种，且EOL中至少有30张图像。

许可证信息

数据集: 使用CC0公共领域授权。
图像和文本: 许可证范围从CC0到CC BY-NC-SA，具体信息见licenses.csv。

引用信息

数据集: 引用格式见README文件中的引用块。
原始数据源: 引用IUCN和EOL的分类数据。

贡献者

数据集创建者: Samuel Stevens, Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo等。
资助: 由美国国家科学基金会的Harnessing the Data Revolution (HDR) 计划资助。

搜集汇总

数据集介绍

构建方式

在生物多样性信息学领域，稀有物种数据集的构建体现了对濒危生物图像资源的系统性整合。该数据集依托生命百科全书（EOL）和国际自然保护联盟（IUCN）红色名录，从约25,000种受威胁动物中筛选出400个物种，每个物种确保至少拥有30张图像。这些物种均属于近危至野外灭绝的类别，且排除了iNat21和BIOSCAN-1M等现有数据集的重复条目。通过随机抽取图像并关联完整的林奈分类学信息，数据集以Parquet格式存储，确保了数据的结构化和可扩展性。

特点

该数据集聚焦于濒危动物视觉表征，其核心特征在于严格的物种筛选与多层次标注体系。所有图像均对应IUCN红色名录中受威胁的动物物种，涵盖从界到种的完整分类层级，并附有学名与俗名信息。数据规模包含约12,000个实例，每个物种提供30张图像，形成了均衡的跨物种分布。此外，数据集支持零样本与小样本分类任务，其结构化元数据如内容ID、页面ID及许可信息，为生物多样性研究与保护应用提供了可靠基准。

使用方法

在计算生物学与保护生态学应用中，该数据集可通过Hugging Face的datasets库直接加载，适用于多模态视觉语言模型的评估与微调。用户可使用Python代码加载训练集，获取包含图像文件与分类标签的数据实例。数据集支持零样本、一样本和五样本分类任务，并可导出为按分类层级组织的目录结构，便于传统图像分类流程的集成。通过结合BioCLIP等预训练模型，研究者能够评估模型在稀有物种识别上的泛化能力，为生物多样性监测与保护策略提供技术支撑。

背景与挑战

背景概述

在生物多样性保护与计算生物学交叉领域，稀有物种的视觉识别对生态监测与保育策略制定具有关键意义。由Imageomics研究所主导，Samuel Stevens、Jiaman Wu等研究人员于2023年构建的Rare Species数据集，依托生命百科全书（EOL）和国际自然保护联盟（IUCN）红色名录，聚焦近危至野外灭绝的400个动物物种，旨在为BioCLIP等视觉基础模型提供零样本分类与细粒度图像识别的基准测试平台。该数据集通过整合多模态数据与完整林奈分类体系，推动了知识引导机器学习在进化生物学中的应用，为生物多样性研究提供了结构化数据支撑。

当前挑战

该数据集致力于解决稀有物种图像分类中的领域挑战，包括类内差异显著、样本稀缺导致的模型泛化困难，以及跨物种细粒度特征辨识的复杂性。在构建过程中，面临数据获取的固有局限：仅约1.6%的IUCN红色名录物种满足图像数量阈值，且全部样本局限于动物界五个门类，反映了生物影像数据分布的不均衡性。此外，数据标注依赖EOL的动态数据库与ITIS分类标准协调，需处理同名词汇解析与高阶分类单元匹配，增加了数据一致性与标准化难度。

常用场景

经典使用场景

在计算生物学与计算机视觉的交叉领域，稀有物种数据集为多模态学习模型提供了关键的评估基准。该数据集聚焦于国际自然保护联盟红色名录中受威胁的物种，通过整合图像与文本信息，专门用于零样本分类和精细化图像分类任务。其经典应用场景体现在对生物多样性视觉识别模型的性能测试上，尤其在缺乏充足训练样本的稀有物种识别中，能够有效评估模型从有限数据中泛化知识的能力。数据集的结构化设计，包含从界到种的完整分类学层级，为模型理解生物类群间的系统发育关系提供了丰富语境。

衍生相关工作

该数据集直接衍生并支撑了多项经典研究工作，其中最突出的是BioCLIP视觉基础模型的开发与验证。BioCLIP作为一个为生命之树定制的多模态模型，利用包括本数据集在内的生物图像语料库进行训练，并在稀有物种分类任务上展现了超越通用CLIP模型的性能。相关研究进一步探讨了知识引导的机器学习在生物视觉任务中的应用范式。此外，围绕数据集的构建方法论、生物分类学先验的编码方式，以及在小样本场景下的模型评估协议，也催生了一系列关于如何将领域知识系统整合进机器学习流程的学术讨论与技术实践。

数据集最近研究