five

imageomics/TreeOfLife-200M

收藏
Hugging Face2026-03-25 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/imageomics/TreeOfLife-200M
下载链接
链接失效反馈
官方服务:
资源简介:
TreeOfLife-200M是一个包含近2.14亿张图片、代表952,257个物种的计算机视觉模型训练数据集。它结合了来自GBIF、EOL、BIOSCAN-5M和FathomNet四个核心生物多样性数据提供商的图像和元数据,是迄今为止最大的、最多样化的公共机器学习就绪型数据集。该数据集还增加了图像上下文的多样性,包括博物馆标本、相机陷阱和公民科学图像。数据集的严格筛选过程确保每个图像都有尽可能具体的分类标签,为训练BioCLIP 2和未来的生物基础模型提供了一个全面的基础。

TreeOfLife-200M is a computer vision model training dataset with nearly 214 million images representing 952,257 taxa. It combines images and metadata from four core biodiversity data providers: GBIF, EOL, BIOSCAN-5M, and FathomNet. This is the largest and most diverse public ML-ready dataset for computer vision models in biology at release. The dataset also increases image context diversity with museum specimen, camera trap, and citizen science images well-represented. A rigorous curation process ensures each image has the most specific taxonomic label possible, providing a well-rounded foundation for training BioCLIP 2 and future biology foundation models.
提供机构:
imageomics
搜集汇总
数据集介绍
main_image_url
构建方式
在生物信息学领域,大规模图像数据集的构建对于推动计算机视觉模型的发展至关重要。TreeOfLife-200M数据集通过整合全球生物多样性信息设施(GBIF)、生命百科全书(EOL)、BIOSCAN-5M以及FathomNet四大核心数据源的图像与元数据,构建了一个涵盖生命之树中952,257个分类群的近2.14亿张图像的集合。该数据集采用严格的策展流程,确保每张图像均标注有最具体的分类学标签,并通过去除标本标签图像、噪声图像及可识别的人像,提升了数据的纯净度与可用性。其构建过程注重分类学标签的对齐与图像类型的多样性,为生物基础模型的训练提供了坚实的数据基础。
特点
TreeOfLife-200M数据集以其规模与多样性在生物计算机视觉领域占据显著地位。该数据集覆盖了从动物、植物到真菌等多个生物界,图像类型丰富,包括博物馆标本、相机陷阱图像以及公民科学图像,极大地扩展了图像上下文的多样性。数据集中近89%的图像具备完整的分类学标签,依据林奈分类系统标注至种级水平,同时提供俗名与科学名称,支持多层次的知识引导学习。此外,数据集还包含了针对特定生物类群(如达尔文雀)的评估子集,为模型在细粒度分类任务上的性能验证提供了专门资源。
使用方法
该数据集主要应用于图像分类与零样本分类任务,为训练如BioCLIP 2等生物基础模型提供核心数据支持。用户可通过HuggingFace平台获取元数据文件(如catalog.parquet),并依据GitHub仓库提供的详细指南下载图像数据,重建符合WebDataset结构的训练分片。数据集中每个图像均附带分类学标签、科学名称及俗名等多重文本描述,便于进行多模态对比学习。研究人员可利用嵌入目录中的预计算文本嵌入,加速模型训练与评估过程,并在多个生物相关基准数据集上进行模型性能测试。
背景与挑战
背景概述
在计算生物学与计算机视觉交叉领域,大规模、高质量的生物图像数据集对于推动物种识别与生物多样性研究至关重要。TreeOfLife-200M数据集由Imageomics团队于2025年创建,核心研究人员包括Jianyang Gu、Samuel Stevens等,旨在通过整合全球生物多样性信息设施(GBIF)、生命百科全书(EOL)等四大权威数据源,构建一个涵盖近2.14亿图像、95万余类群的巨型数据集。该数据集的核心研究问题是解决传统生物视觉模型中数据规模有限、类群覆盖狭窄的瓶颈,为训练BioCLIP 2等生物基础模型提供全面支撑,显著提升了跨物种图像分类与零样本学习的性能基准,对进化生物学、生态监测及保护科学产生了深远影响。
当前挑战
该数据集致力于应对生物图像分类中的核心挑战:如何在极度不平衡的类群分布下实现高精度物种识别,并处理图像来源的异质性,如博物馆标本、相机陷阱及公民科学图像间的巨大差异。构建过程中的挑战尤为突出,包括多源数据整合时面临的元数据标准化难题、图像标签的细粒度对齐,以及确保每个图像获得最具体的分类学标注。此外,数据清洗需消除噪声图像、排除含有人类标识的信息,并维持数据在规模与多样性间的平衡,这些复杂流程对计算资源与领域专业知识提出了极高要求。
常用场景
经典使用场景
在计算生物学与计算机视觉的交叉领域,TreeOfLife-200M数据集为大规模生物图像分类任务提供了前所未有的资源。其经典应用场景集中于训练能够识别和分类全球生物多样性的深度学习模型,特别是通过涵盖博物馆标本、相机陷阱图像及公民科学照片等多类图像,模型得以学习不同情境下的物种形态特征。该数据集支撑了从物种级别到更高阶元分类层级的细粒度识别,为构建能够理解生命之树复杂结构的视觉系统奠定了数据基础。
解决学术问题
该数据集有效应对了生物信息学中物种识别数据稀缺且分布不均的长期挑战。通过整合近2.14亿张图像覆盖95万余个分类单元,它显著缓解了类不平衡问题,并为研究跨域泛化、少样本学习提供了丰富素材。其严谨的标注流程确保了分类标签的准确性,使得基于该数据训练的模型能够更可靠地探索物种间的进化关系与形态变异,推动了系统发育分析与保护生物学中定量方法的发展。
衍生相关工作
该数据集直接催生了BioCLIP 2等生物基础模型,这些模型利用其大规模多模态数据实现了零样本和少样本分类能力的突破。相关经典工作还包括在层级对比学习框架下探索物种嵌入空间的结构,如利用达尔文雀亚群图像验证模型捕获微观进化模式的能力。此外,数据集支撑了多个生物特异性基准测试集的构建,如IDLE-OO相机陷阱数据集,进一步推动了领域内评估标准的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作