inaturalist-enriched

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/philipp-zettl/inaturalist-enriched

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于`philipp-zettl/inaturalist-s3-massive`的增强版iNaturalist数据集（版本日期2026-03-27），通过仓库中的`./enrich.py`脚本进行数据增强处理。数据集包含以下核心特征：photo_id（原始照片ID）、observation_uuid（观察记录UUID）、image（图像内容）、taxon_id（分类学ID）、species_name（物种名称）以及taxonomic_rank（分类等级，包含genus/属、species/种和subspecies/亚种三个类别）。该数据集适用于生物多样性研究、物种识别等计算机视觉任务。

创建时间：

2026-03-29

原始信息汇总

数据集概述

基本信息

数据集名称: Enriched iNaturalist dataset
数据集创建/更新日期: 2026-03-27
源数据集: 基于 philipp-zettl/inaturalist-s3-massive 构建

数据生成方式

数据增强方法: 使用仓库内的 ./enrich.py 脚本对源数据进行增强处理。

数据特征说明

数据集包含以下字段：

photo_id: 图片在原始 iNaturalist 数据集中的 ID。
observation_uuid: 观测记录的 UUID。
image: 图像的实际内容。
taxon_id: 分类学 ID。
species_name: 图像中物种的名称。
taxonomic_rank: taxon_id 所代表的分类学等级类型。当前包含三个类别：genus（属）、species（种）和 subspecies（亚种）。

搜集汇总

数据集介绍

构建方式

在生物多样性信息学领域，数据集的构建往往依赖于对现有资源的深度整合与扩展。该数据集以philipp-zettl/inaturalist-s3-massive为基础，通过执行特定的enrich.py脚本进行数据增强处理。这一过程不仅保留了原始图像及其标识信息，如photo_id和observation_uuid，还系统地引入了物种分类学层面的结构化数据，包括taxon_id、species_name以及taxonomic_rank等关键特征，从而在原有视觉数据基础上构建了一个层次更丰富、信息更完整的多模态生物观测数据集。

特点

该数据集的核心特点体现在其多维度的信息整合与结构化表示上。除了包含原始的图像内容外，数据集还精准关联了每个观测样本的物种分类信息，具体涵盖了从属、种到亚种三个层级的taxonomic_rank分类。这种设计使得数据集不仅适用于计算机视觉任务，如物种识别与分类，更能支持跨模态的生态学研究与生物多样性分析，为研究者提供了一个兼具视觉细节与分类学严谨性的综合性数据平台。

使用方法

在应用层面，该数据集为生物信息学与计算机视觉的交叉研究提供了直接支持。用户可通过标准的数据加载接口访问图像及其对应的多维度标签，包括物种名称与分类层级。这些结构化数据使得数据集能够便捷地用于训练和评估细粒度图像分类模型，或作为基础数据服务于物种分布、生态位建模等更宏观的生物学分析。其清晰的字段定义与统一的格式确保了数据在各类机器学习流程中的易用性与可复现性。

背景与挑战

背景概述

iNaturalist数据集作为生物多样性研究领域的重要资源，自2017年由加州大学伯克利分校等机构联合创建以来，持续推动着计算机视觉与生态学的交叉融合。该数据集旨在通过众包方式收集全球范围内的生物观测图像，核心研究问题聚焦于物种识别与分类，为生物多样性监测、保护生物学及自动化识别系统提供了关键数据支撑。inaturalist-enriched作为其增强版本，进一步整合了物种分类学层级信息，深化了数据在细粒度识别任务中的应用潜力，显著提升了模型在复杂自然场景下的泛化能力。

当前挑战

在物种识别领域，该数据集需应对类间相似性高、类内差异性大以及长尾分布等固有挑战，这些因素导致模型难以准确区分外观相近的物种或处理罕见类别。数据构建过程中，挑战主要源于众包数据的质量控制，包括图像标注的准确性、地理与时间信息的完整性，以及跨地域物种分布的不均衡性。此外，整合分类学层级信息时，需确保不同来源的物种名称与分类系统保持一致，这对数据清洗与标准化提出了较高要求。

常用场景

解决学术问题

该数据集有效应对了生物信息学中大规模物种图像标注稀缺的挑战，为研究社区提供了结构化的分类学标注数据。它支持解决细粒度视觉分类的模型泛化问题，促进了跨域迁移学习与零样本识别方法的发展，对提升自动生物监测系统的准确性与可扩展性具有重要学术意义。

衍生相关工作

基于iNaturalist-enriched数据集的丰富标注，衍生了一系列经典研究工作，包括结合视觉与分类学知识的层次化分类模型、用于少样本学习的元学习框架，以及跨模态检索系统。这些工作进一步拓展了数据集在迁移学习、领域自适应及生物多样性数据分析中的应用边界，推动了计算机视觉与生态学的深度融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集