five

imageomics/TreeOfLife-10M

收藏
Hugging Face2026-01-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/imageomics/TreeOfLife-10M
下载链接
链接失效反馈
官方服务:
资源简介:
TreeOfLife-10M数据集是一个包含超过1000万张生物体图像的大规模数据集,覆盖了454,000个分类单元。这些图像与它们的分类标签配对,是迄今为止最大的机器学习就绪的生物图像数据集。数据集扩展了现有高质量数据集(如iNat21和BIOSCAN-1M)的基础,进一步整合了来自Encyclopedia of Life (EOL)的新策划图像。每张图像都尽可能标注到最具体的分类级别,并包括生命树中的更高分类级别。该数据集旨在训练BioCLIP及未来的生物学基础模型。

TreeOfLife-10M is a large-scale dataset containing over 10 million images of biological organisms, covering 454 thousand taxa. These images are paired with their associated taxonomic labels, making it the largest-to-date ML-ready dataset of biological images. The dataset builds on the foundation established by existing high-quality datasets such as iNat21 and BIOSCAN-1M, further incorporating newly curated images from the Encyclopedia of Life (EOL). Every image in TreeOfLife-10M is labeled to the most specific taxonomic level possible, as well as higher taxonomic ranks in the tree of life. The dataset was generated for the purpose of training BioCLIP and future biology foundation models.
提供机构:
imageomics
原始信息汇总

数据集卡片 for TreeOfLife-10M

数据集描述

TreeOfLife-10M 是一个包含超过 1000 万张图像的数据集,涵盖了生命之树中的 454,000 个物种。它是迄今为止最大的机器学习就绪的生物图像数据集,每个图像都标有最具体的分类标签。数据集主要从 Encyclopedia of Life (eol.org) 收集,并结合了 iNat21 和 BIOSCAN-1M 等高质量数据集。

数据集摘要

  • 图像数量: 超过 1000 万张
  • 物种数量: 454,000 个
  • 标签类型: 每个图像标有最具体的分类标签,包括从界到种的分类等级
  • 目的: 用于训练 BioCLIP 和其他生物基础模型

支持的任务和排行榜

  • 任务: 图像分类、零样本和少量样本分类

语言

  • 英语、拉丁语

数据集内容

数据集结构如下:

/dataset/ EOL/ image_set_01.tar.gz ... image_set_63.tar.gz metadata/ catalog.csv species_level_taxonomy_chains.csv taxon.tab licenses.csv visuals/ kingodm_ToL_tree.html ... phyla_ToL_tree.png

每个 image_set 包含约 10 万张图像,每张图像名为 <treeoflife_id>.jpg

数据实例

数据集包含图像及其关联文本,文本包含图像主题的林奈分类(从界到种)和常见名称(如果可用)。

数据字段

元数据文件

  • catalog.csv: 包含每个图像的元数据,如分割、唯一标识符、EOL 内容 ID 等。
  • species_level_taxonomy_chains.csv: 包含 ITIS 分类层次结构。
  • taxon.tab: 包含基于 EOL 页面 ID 的分类信息。
  • licenses.csv: 包含每个图像的许可证、来源和版权持有者信息。

数据分割

数据集分为训练集、验证集和训练小集(train_small),其中 train_smalltrain 的一个 100 万图像的子集。

数据集创建

策划理由

先前最大的生物图像数据集是 iNat21,包含 270 万张图像和 10,000 个物种。为了增加物种多样性,数据集从 Encyclopedia of Life (EOL) 收集了 660 万张图像,覆盖了额外的 44 万个物种。

源数据

  • iNat21 数据
  • BIOSCAN-1M 数据
  • EOL 数据

初始数据收集和规范化

iNat21 和 BIOSCAN-1M 数据被下载并分配了 treeoflife_id,然后从 EOL 下载图像并命名。

注释

注释主要来自图像来源提供者,如 iNat21 和 BIOSCAN-1M 的标签,以及 EOL 的科学名称和分类信息。

搜集汇总
数据集介绍
main_image_url
构建方式
TreeOfLife-10M数据集是迄今为止规模最大的面向机器学习的生物图像数据集,其构建旨在突破现有数据集如iNat21和BIOSCAN-1M在物种多样性上的局限。该数据集整合了来自生命百科全书(EOL)的逾660万张新精选图像,这些图像由多个机构合作提供并标注,构成了数据多样性的主体。此外,为了增强昆虫类群的细粒度识别能力,研究团队融入了BIOSCAN-1M中约100万张专家标注的实验室昆虫图像,并复用了iNat21的训练数据。每张图像均被分配唯一的treeoflife_id,并依据林奈分类体系标注至最具体的分类等级,最终形成了涵盖约45.4万个分类单元、超过1000万张图像的庞大数据集合。
特点
该数据集的核心特点在于其无与伦比的物种多样性与分类深度,覆盖了从界到种的完整林奈分类层级,包含约45.4万个独特分类标签,是iNat21物种数量的45倍之多。数据来源的多元化赋予了其独特的图像分布特性:既有iNat21提供的野外自然图像,也有BIOSCAN-1M的实验室控制图像,以及EOL聚合的多源图像,这种异质性极大地丰富了视觉表征的泛化能力。数据集内部存在天然的不平衡性,例如昆虫纲拥有超过100万个物种,而鸟类和爬行纲各仅1万余种,这种长尾分布为训练能够识别极度细粒度视觉特征的视觉基础模型提出了挑战,同时也提供了宝贵的研究资源。
使用方法
该数据集以WebDataset格式组织,便于高效流式读取。用户可通过Hugging Face Datasets库加载,或遵循BioCLIP仓库提供的复现指南重建WebDataset结构,生成包含train、val和train_small分片的数据包。每个分片内,图像以JPEG格式存储,并附带多种文本标注文件,如科学名、通用名、完整分类链等。数据集支持图像分类与零样本分类任务,预训练的文本嵌入文件(embeddings/目录)可供直接使用。研究人员可基于catalog.csv中的元数据(包括分类信息、数据来源和划分标签)进行灵活的数据筛选与实验设计,例如利用train_small子集进行微调消融研究。
背景与挑战
背景概述
TreeOfLife-10M数据集由美国俄亥俄州立大学Imageomics研究所于2023年创建,旨在突破现有生物图像数据集在物种多样性上的局限。该数据集汇聚了超过1000万张涵盖45.4万个分类单元的生物图像,其规模与多样性在机器学习就绪的生物图像数据集中首屈一指。研究团队以iNat21和BIOSCAN-1M等高质量数据集为基础,进一步整合了生命百科全书(EOL)中精心筛选的图像资源,从而大幅拓展了数据覆盖的物种范围。核心研究问题在于构建一个能够支撑整个生命之树视觉表征学习的基石数据集,并据此训练出BioCLIP这一开创性的生物学视觉基础模型。该数据集的发布对计算机视觉与进化生物学交叉领域产生了深远影响,为细粒度物种识别、零样本分类等任务提供了前所未有的数据支撑,推动了从有限物种类别向全域生物多样性建模的范式转变。
当前挑战
TreeOfLife-10M的构建与使用面临多重挑战。在领域问题层面,生命之树中不同分类子树间的物种数量极不均衡,例如昆虫纲拥有超过100万种,而鸟类和爬行纲各仅万余种,这种天然的长尾分布使得训练一个能够识别极度细粒度视觉表征的基础模型变得异常困难。数据集创建过程中,研究团队需要将来自iNat21、BIOSCAN-1M和EOL三个异构数据源的图像进行统一整合,这些来源在图像采集环境(野外实拍与实验室受控拍摄)、标注粒度(从物种级到更高分类阶元)以及元数据格式上存在显著差异。此外,EOL提供的图像关联到特定分类页面,但页面ID可能随数据库更新而变化,这给数据集的长期可复现性带来了挑战。最终,仅有845万张图像具备完整的分类标签,说明在跨源数据对齐与标签统一化过程中仍存在信息缺失的难题。
常用场景
经典使用场景
TreeOfLife-10M作为迄今为止规模最大的生命之树图像数据集,涵盖了超过1000万张图像和45.4万个分类单元,其经典使用场景在于为生物视觉基础模型提供大规模预训练数据。该数据集整合了iNat21、BIOSCAN-1M以及生命百科全书(EOL)的图像资源,构建了涵盖从界到种的完整林奈分类层级标签体系,使其成为训练跨物种视觉表征模型的理想基石。研究者可基于此数据集开展零样本分类、少样本学习以及细粒度物种识别等任务,通过挖掘不同分类层级间的视觉关联性,推动生物多样性智能识别技术的发展。
衍生相关工作
该数据集直接催生了BioCLIP这一里程碑式的生物视觉基础模型,其在CVPR 2024发表的论文中展示了跨物种零样本分类的卓越性能。基于TreeOfLife-10M的数据结构,研究人员进一步构建了Rare Species数据集,专门用于评估模型对濒危物种的识别能力。此外,该数据集还激发了一系列关于知识引导视觉表征学习的研究工作,包括利用系统发育树结构设计层级化损失函数、探索分类学标签对视觉特征空间的正则化效应等。这些衍生工作共同推动了生物智能计算领域从单一物种识别向全生命之树视觉理解的范式转变。
数据集最近研究
最新研究方向
当前,TreeOfLife-10M数据集正引领着生物视觉基础模型的前沿研究方向,尤其是在大规模物种分类与零样本识别领域。该数据集通过整合iNat21、BIOSCAN-1M及来自百科全书生命(EOL)的600万张新图像,覆盖了超过45.4万个分类单元,成为生命之树领域规模最大的机器学习就绪数据集。基于此训练的BioCLIP模型在CVPR 2024上发布,展现了在极度不平衡的物种分布下进行细粒度视觉表征学习的强大能力,为生态监测、濒危物种保护及生物多样性研究提供了关键工具。这一突破性进展不仅推动了计算机视觉与进化生物学的交叉融合,也为构建面向整个生命之树的通用视觉基础模型奠定了数据基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作