ba188/iNaturalist_v2

Name: ba188/iNaturalist_v2
Creator: ba188
Published: 2024-04-30 23:27:03
License: 暂无描述

Hugging Face2024-04-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ba188/iNaturalist_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1,079个来自iNaturalist应用的观察记录，涵盖了植物、昆虫和动物的图像分类任务。每个观察记录包含图像质量、物种标签、观察日期、地理位置、物种分类、观察次数、维基百科链接、照片URL以及由ResNet50模型生成的嵌入向量等信息。数据集经过筛选和处理，适用于图像分类模型的训练和测试。

提供机构：

ba188

原始信息汇总

数据集概述

数据集名称

名称: Dataset Name

数据集描述

内容: 包含1,079个观察记录，每个记录包括图像质量等级、物种猜测、观察日期、观察地点（经纬度和地点名称）、物种名称、观察次数、分类学分类、常用名称、维基百科链接、照片链接和图像嵌入。
嵌入处理: 使用ResNet50模型生成，需转换为形状为(2048,)的数组后使用。

数据集来源

API: 数据通过iNaturalist API获取，网址为https://api.inaturalist.org

数据集用途

直接使用: 适用于训练和测试图像分类模型。

数据集结构

列信息:
- quality_grade: 字符串，描述图像质量。
- species_guess: 字符串，描述物种。
- observed_on: 字符串，包含观察日期。
- location: 字符串，包含地理坐标。
- place_name: 字符串，描述地点。
- name: 字符串，包含分类学分类。
- observations_count: 整数，描述物种在iNaturalist上的记录次数。
- taxon: 字符串，包含分类学分类。
- common_name: 字符串，包含常用名称。
- wikipedia_link: 字符串，维基百科链接。
- photo: 字符串，照片链接。
- embedding: 字符串，图像嵌入，需转换后使用。
训练/测试分割: 80/20分割，训练集863行，测试集216行。

数据集创建

数据筛选: 从iNaturalist API获取的9,990个请求中筛选出1,079个包含照片和拉丁字母物种猜测的记录。
嵌入生成: 使用ResNet50模型，移除顶层并应用平均池化。

数据收集和处理

数据下载日期: 2024年4月22日。
筛选标准: 包含照片和拉丁字母物种猜测的记录。

数据隐私

隐私信息: 包含地理坐标，但不包含用户数据。iNaturalist对特定物种的地理坐标进行了模糊处理。

搜集汇总

数据集介绍

构建方式

ba188/iNaturalist_v2数据集是通过从iNaturalist API获取数据并经过筛选处理构建而成。具体而言，数据集中包含的1,079条观测记录均来自于iNaturalist应用，该应用旨在提供一个基于大众参与的动植物识别系统。数据筛选过程中，仅保留了同时具有照片和拉丁字母种类猜测的观测记录，进而形成了本数据集。

特点

本数据集的特点在于其包含了丰富的生物多样性信息，涵盖了植物、昆虫和动物等多个类别。数据集不仅提供了观测记录的基本信息，如观测日期、地点等，还包含了照片嵌入向量，这些向量是通过ResNet50模型生成的，可用于图像分类模型的训练和测试。此外，数据集已预先划分为80%的训练集和20%的测试集，便于直接使用。

使用方法

使用该数据集时，用户可以直接利用其提供的训练和测试集进行图像分类模型的训练和评估。数据集中的嵌入向量在使用前需转换为形状为(2048,)的数组。此外，数据集的结构化字段，如照片质量等级、物种猜测、观测地点等，均可用于进一步的数据分析和模型构建。

背景与挑战

背景概述

ba188/iNaturalist_v2数据集，汇聚了1,079项在iNaturalist应用程序上发布的观察记录。该应用程序旨在构建一个针对植物、昆虫和动物的众包识别系统。该数据集的创建，旨在便捷化地提供经预处理的数据，包括图像质量和物种标签等信息，以促进图像分类模型的研究与开发。自2024年4月22日起，数据由iNaturalist API获取并经过筛选处理，以满足特定研究需求。该数据集不仅为生物学和环境科学领域提供了宝贵的资源，也为相关研究问题如物种识别和分类提供了重要的数据支撑，对促进生态保护及生物多样性研究具有显著影响。

当前挑战

该数据集在构建和应用过程中面临多项挑战。首先，数据集中图像的质量参差不齐，对模型训练和测试构成挑战。其次，物种标签的准确性依赖于用户输入，存在潜在错误。此外，数据集规模相对较小，可能限制了模型学习的广泛性和泛化能力。在构建过程中，数据筛选和预处理步骤需要精确执行，以确保数据的质量和适用性。同时，数据集中包含的地理坐标信息可能涉及隐私保护问题，需在数据使用时谨慎处理。

常用场景

经典使用场景

ba188/iNaturalist_v2数据集，作为一张汇集了生物多样性信息的知识库，其经典的使用场景在于图像分类模型的训练与测试。通过对数据集中包含的动植物图片进行深度学习模型的训练，研究者能够构建出能够准确识别物种的人工智能系统。

衍生相关工作

基于ba188/iNaturalist_v2数据集，研究者们衍生出了一系列相关工作，如利用数据集中的图片嵌入向量进行物种相似性分析，以及通过模型预测结果进行生态系统的健康评估等。这些工作不仅增进了我们对生物多样性的理解，也为环境保护政策的制定提供了科学依据。

数据集最近研究