TreeOfLife-10M

github2024-05-18 更新2024-05-31 收录

下载链接：

https://github.com/Imageomics/bioclip

下载链接

链接失效反馈

官方服务：

资源简介：

BioCLIP模型训练所用的10M生物图像数据集，包含超过45万个不同分类单元的图像，每个图像都附有7级林奈分类法（从界到种）的分类字符串及可用的常用名。

The 10M biological image dataset used for training the BioCLIP model contains over 450,000 images of different taxonomic units. Each image is accompanied by a 7-level Linnaean classification string (from kingdom to species) and available common names.

创建时间：

2023-11-30

原始信息汇总

数据集概述

主要数据集

TreeOfLife-10M: 该数据集是BioCLIP模型的训练基础，包含超过1000万张生物学图像，涵盖超过450,000个不同的生物分类群。数据来源于iNat21、BIOSCAN-1M和Encyclopedia of Life (EOL)。EOL数据已上传至TreeOfLife-10M。

测试集

Meta-Album: 使用其中的Plankton、Insects、Insects 2、PlantNet、Fungi、PlantVillage、Medicinal Leaf和PlantDoc子集。
Birds 525: 使用其中的2,625张测试图像。
Rare Species: 由本项目团队创建，包含近12,000张图像，代表400个濒危至野外灭绝的物种。

数据集组合

TreeOfLife-10M数据集是通过将iNat21、BIOSCAN-1M和清理后的EOL数据按照webdataset格式组合而成。

数据集用途

用于训练和评估BioCLIP模型，支持零样本和少样本分类等生物学相关任务。

搜集汇总

数据集介绍

构建方式

TreeOfLife-10M数据集的构建基于对多个生物图像数据源的整合与清洗。该数据集主要由iNat21、BIOSCAN-1M以及从Encyclopedia of Life (EOL)收集并清理的数据组成。这些数据涵盖了超过45万种不同的生物分类单元，每个图像都附带了从界到种的七级林奈分类标签，以及可用的通用名称。为了形成完整的TreeOfLife-10M数据集，用户需要先下载iNat21和BIOSCAN-1M数据集，然后按照提供的指南将三者合并，并以webdataset格式进行存储，以便于模型训练。

特点

TreeOfLife-10M数据集的显著特点在于其庞大的规模和精细的分类标签。该数据集包含了超过1000万张生物图像，覆盖了45万多种生物分类单元，且每张图像都附带了详细的七级林奈分类信息。此外，数据集的多样性极高，涵盖了从常见物种到稀有物种的广泛范围，使其在生物学相关的任务中表现出色。这种精细的分类标签和多样性使得该数据集在生物图像分类、识别和零样本学习等任务中具有极高的应用价值。

使用方法

TreeOfLife-10M数据集主要用于训练和评估生物图像分类模型，如BioCLIP模型。用户可以通过下载iNat21和BIOSCAN-1M数据集，并按照提供的指南将它们与EOL数据合并，形成完整的TreeOfLife-10M数据集。数据集以webdataset格式存储，便于模型训练。此外，数据集还附带了用于评估的测试集和相关脚本，用户可以通过这些资源进行模型的测试和可视化。对于不熟悉数据集使用的用户，可以通过查阅提供的文档或在GitHub上提出问题获取帮助。

背景与挑战

背景概述

TreeOfLife-10M数据集是由Imageomics团队创建的一个大规模生物图像数据集，旨在支持生物学领域的细粒度分类任务。该数据集包含了超过1000万张图像，涵盖了45万多种不同的生物分类单元，基于林奈分类法（Linnaean taxonomy）进行标注。TreeOfLife-10M的构建结合了iNat21、BIOSCAN-1M以及从《生命百科全书》（Encyclopedia of Life, EOL）中收集并清理的数据。该数据集的核心研究问题是如何在生物多样性研究中实现高效的图像分类与识别，尤其是在零样本和少样本学习场景下。TreeOfLife-10M的发布为生物学与计算机视觉的交叉研究提供了重要的资源，推动了生物图像识别技术的发展。

当前挑战

TreeOfLife-10M数据集的构建面临多重挑战。首先，数据来源多样，包括iNat21、BIOSCAN-1M和EOL，这些数据在格式、质量和标注标准上存在差异，整合过程复杂且耗时。其次，生物分类的细粒度特性要求高精度的标注，确保每个图像的分类信息准确无误，这对数据清洗和标注工作提出了极高的要求。此外，数据集的规模庞大，如何在有限的计算资源下高效地进行模型训练和评估也是一个重要挑战。最后，生物多样性研究中的稀有物种识别问题尤为突出，如何通过该数据集提升对稀有物种的识别能力，是该领域面临的一个长期挑战。

常用场景

经典使用场景

TreeOfLife-10M数据集在生物学领域中被广泛应用于图像分类和物种识别任务。其丰富的图像数据和细粒度的分类标签使得研究人员能够训练高效的生物图像识别模型，特别是在零样本和少样本分类任务中表现尤为突出。通过结合iNat21、BIOSCAN-1M和EOL的数据，该数据集为生物多样性研究提供了强大的数据支持，尤其是在处理大规模生物图像数据时，能够显著提升模型的泛化能力和分类精度。

解决学术问题

TreeOfLife-10M数据集解决了生物学领域中长期存在的物种分类和识别难题。传统的生物分类方法依赖于专家知识和有限的样本数据，而该数据集通过提供大规模、多样化的生物图像数据，使得机器学习模型能够在更广泛的生物学任务中表现出色。这不仅推动了生物多样性研究的发展，还为保护濒危物种和生态系统提供了新的技术手段，具有重要的学术意义和实际应用价值。

衍生相关工作

TreeOfLife-10M数据集的发布催生了一系列相关研究工作，特别是在生物图像识别和分类领域。例如，基于该数据集的BioCLIP模型在多个生物学任务中表现优异，推动了生物图像识别技术的发展。此外，该数据集还激发了针对稀有物种识别的研究，如Rare Species数据集的创建，进一步扩展了机器学习在生物保护领域的应用。这些衍生工作不仅丰富了生物学研究的方法论，还为相关领域的技术进步提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集