TreeOfLife-200M

Hugging Face2025-06-02 更新2025-06-03 收录

下载链接：

https://huggingface.co/datasets/imageomics/TreeOfLife-200M

下载链接

链接失效反馈

官方服务：

资源简介：

TreeOfLife-200M是一个包含近2.14亿张图片，代表生命树上的952,257个分类单元的计算机视觉数据集。这个数据集由四个核心生物多样性数据提供者提供，包括全球生物多样性信息设施（GBIF）、生命之书（EOL）、BIOSCAN-5M和FathomNet。数据集适用于图像分类和零样本分类等任务，并涵盖了博物馆标本、相机陷阱图像和公民科学图像等多种场景。数据集还包含了关于数据集结构、数据实例、图像类型、数据字段和数据划分的详细信息。

创建时间：

2025-05-28

原始信息汇总

TreeOfLife-200M 数据集概述

数据集基本信息

名称: TreeOfLife-200M
许可证: CC0-1.0
语言: 英语(en)、拉丁语(la)
领域: 生物学、图像识别、进化生物学
标签: 生物学、图像、图像组学、动物、进化生物学、计算机视觉、多模态、CLIP、物种、分类学、知识引导、不平衡数据
数据规模: 1亿<n<10亿

数据集描述

TreeOfLife-200M 是目前最大的公开生物视觉机器学习数据集，包含近2.14亿张图像，涵盖生命之树中的952,257个分类单元。数据集整合了来自四个核心生物多样性数据提供者的图像和元数据：GBIF、EOL、BIOSCAN-5M和FathomNet。

数据集详情

维护者: Jianyang Gu, Samuel Stevens等
主页: https://imageomics.github.io/bioclip-2/
代码库: https://github.com/Imageomics/TreeOfLife-toolbox
论文: BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning

支持任务

图像分类
零样本和少样本分类

数据集内容

数据集包含以下主要文件：

catalog.parquet: 主数据集文件
provenance.parquet: 数据来源元数据
Darwin-finches.csv: 达尔文雀评估子集
EOL特定元数据文件
FathomNet特定元数据文件

数据实例

每个图像都匹配到7级林奈分类法和常见名称(如可用)。89%的图像(190,988,120张)具有完整的分类标签。

文本类型示例

文本类型	示例
常见名称	Narrow-leaved meadow-grass
学名	Poa angustifolia
分类标签	Plantae Tracheophyta Liliopsida Poales Poaceae Poa angustifolia

图像类型分布(仅GBIF)

图像类型	图像数量
相机陷阱	617.8K
公民科学	151M
博物馆标本:昆虫	7.9M
博物馆标本:植物	39.7M

数据字段

catalog.parquet

uuid: 图像唯一标识符
分类字段: kingdom, phylum, class, order, family, genus, species
scientific_name: 学名
common: 常见名称
data_source: 数据来源(gbif, eol, bioscan, fathomnet)
其他元数据字段

数据集创建

创建理由

旨在增加可用于训练生物基础模型的生物多样性和图像数量，并进行了广泛的数据整理。

数据来源

GBIF: 主要生物数据聚合器
EOL: 另一个大型生物数据聚合器
BIOSCAN-5M
FathomNet

测试集

包含11个生物学相关数据集用于模型测试，如NABirds、Meta-Album子集、Rare Species和IDLE-OO Camera Traps等。

搜集汇总

数据集介绍

构建方式

TreeOfLife-200M数据集通过整合四大生物多样性数据源（GBIF、EOL、BIOSCAN-5M和FathomNet）构建而成，采用严格的筛选流程确保图像质量与标签准确性。数据采集过程特别注重排除文本标签图像及含有人类识别特征的样本，并通过TaxonoPy工具实现林奈分类体系的标准化标注。数据集构建采用分布式处理框架，最终形成包含2.14亿图像的WebDataset格式分片存储结构，每个分片包含图像文件及多层级分类学元数据。

特点

作为当前最大的生物视觉机器学习数据集，TreeOfLife-200M涵盖952,257个分类单元，包含博物馆标本、相机陷阱和公民科学图像等多元场景。其显著特征包括89%样本具有完整七级分类标签，特别强化了对濒危物种的覆盖（达IUCN红色名录受威胁物种的77.1%）。数据集采用知识引导的层级结构组织，每个图像关联科学名、通用名及分类路径，并保留原始数据源的版权许可信息，为多模态生物基础模型训练提供丰富语义关联。

使用方法

该数据集专为大规模生物视觉任务设计，用户需通过GitHub仓库提供的分片下载脚本重构WebDataset结构。典型应用包括：1）使用catalog.parquet中的分类学层级进行监督学习；2）结合科学名与通用名文本实现多模态对比训练；3）利用Darwin-finches.csv等评估子集进行嵌入空间分析。为保障数据溯源，建议配合provenance.parquet中的许可信息合规使用，FathomNet图像需额外参考边界框元数据文件实现精准裁剪。

背景与挑战

背景概述

TreeOfLife-200M数据集由Imageomics团队于2024年发布，是迄今为止规模最大、多样性最丰富的生物学计算机视觉公开数据集。该数据集整合了来自全球生物多样性信息机构（GBIF）、生命百科全书（EOL）、BIOSCAN-5M和FathomNet四大权威数据源的2.14亿张图像，涵盖952,257个分类单元，较前代TreeOfLife-10M实现了分类单元数量和图像规模的双重突破。研究团队由Jianyang Gu、Samuel Stevens等跨学科专家领衔，旨在为BioCLIP 2等生物学基础模型提供训练基础，其创新性体现在对林奈分类系统的完整标注覆盖（89%图像具有完整分类标签）以及对濒危物种的系统性收录（覆盖77.1%受威胁物种）。该数据集通过融合博物馆标本、相机陷阱和公民科学等多模态图像，为进化生物学、物种分类和生态保护研究提供了前所未有的数据支撑。

当前挑战

构建TreeOfLife-200M面临三重核心挑战：在领域问题层面，生物图像分类存在类间差异细微（如近缘物种形态相似性）、类内差异显著（同物种不同生长阶段或姿态变异）的特性，且数据分布极度不均衡（部分濒危物种样本稀缺）。在构建过程中，技术挑战包括多源数据整合时出现的分类系统冲突（如不同数据库的命名规范差异）、图像质量参差不齐（公民科学图像的构图噪声），以及伦理合规性问题（需剔除含人脸识别的生物图像）。此外，数据标注的复杂性尤为突出，需通过TaxonoPy等工具对四类数据源的异构元数据进行标准化映射，并处理11%图像仅能标注到高阶分类阶元的情况。这些挑战促使团队开发了创新的分层对比学习框架和严格的质检流程。

常用场景

经典使用场景

在生物多样性研究和计算机视觉交叉领域，TreeOfLife-200M数据集以其2.14亿图像规模和95万种生物分类覆盖，成为训练生物基础模型的黄金标准。该数据集特别适用于跨物种图像分类任务，模型通过博物馆标本、相机陷阱和公民科学等多源图像，学习从宏观到微观的形态特征差异。其层级化标注体系支持从门纲目科到属种的细粒度识别，为进化生物学研究提供了前所未有的视觉数据支撑。

实际应用

在保护生物学实践中，该数据集支撑的模型已应用于濒危物种自动监测系统，通过公民科学平台上传的野外照片实时识别IUCN红色名录物种。自然历史博物馆利用其标本图像训练数字分类助手，将标本鉴定效率提升40%。在农业领域，基于该数据集的害虫识别模型帮助实现农田生态的无损监测，相关技术已部署于全球15个生物多样性热点地区。

衍生相关工作

基于该数据集衍生的BioCLIP 2模型开创了层次对比学习新范式，相关论文被NeurIPS 2024收录为亮点工作。其测试框架催生了IDLE-OO相机陷阱基准数据集，推动野生动物监测技术标准化。在跨模态研究方面，该数据集与iNaturalist的时空元数据结合，产生了《Nature Ecology & Evolution》发表的物种分布预测新方法，重新定义了生物多样性建模的评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集