TreeOfLife-200M-Embeddings

Hugging Face2026-03-09 更新2026-03-10 收录

下载链接：

https://huggingface.co/datasets/imageomics/TreeOfLife-200M-Embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

TreeOfLife-200M Embeddings 数据集包含 239 million 个 BioCLIP 2 嵌入向量（768 维，float16 格式），用于 TreeOfLife-200M 图像，并按生物分类层次结构排序。数据集提供了丰富的分类信息，包括界（kingdom）、门（phylum）、纲（class）、目（order）、科（family）、属（genus）、种（species）等字段，以及图像来源类型（img_type）、记录依据（basisOfRecord）、发布者（publisher）和标识符（identifier）等元数据。每个样本还包含一个 768 维的嵌入向量（emb）。数据集总大小为 331 GB，包含 685 个 Parquet 文件，采用 ZSTD 压缩（级别 3）和 float16 精度。数据按分类层次排序，并支持高效的分片查询和下载，特别适合生物多样性研究和计算机视觉任务。推荐使用 DuckDB 进行数据访问和查询。

创建时间：

2026-03-08

原始信息汇总

TreeOfLife-200M Embeddings 数据集概述

数据集基本信息

数据集名称: TreeOfLife-200M Embeddings
数据集地址: https://huggingface.co/datasets/imageomics/TreeOfLife-200M-Embeddings
许可证: MIT
状态: 开发中

数据内容与规模

数据描述: 包含 2.39 亿个为 TreeOfLife-200M 图像生成的 BioCLIP 2 嵌入向量，按生物分类学层次结构排序。
嵌入向量维度: 768 维
嵌入向量精度: float16
总样本数: 239,580,103
数据格式: Parquet 文件
文件数量: 685 个
总大小: 331 GB

数据结构与特征

数据集包含以下特征列：

uuid: 字符串类型，唯一图像标识符。
kingdom: 字符串类型，生物分类学上的界。
phylum: 字符串类型，生物分类学上的门。
class: 字符串类型，生物分类学上的纲。
order: 字符串类型，生物分类学上的目。
family: 字符串类型，生物分类学上的科。
genus: 字符串类型，生物分类学上的属。
species: 字符串类型，生物分类学上的种。
img_type: 字符串类型，图像来源类型。
basisOfRecord: 字符串类型，记录依据。
publisher: 字符串类型，数据发布者。
identifier: 字符串类型，来源 URI。
emb: 固定大小的 float16 列表类型（长度为 768），BioCLIP 2 嵌入向量。

数据组织方式

排序顺序: 按 kingdom > phylum > class > order > family > genus > species 的层次结构排序。
行组大小: 每个行组包含 50,000 行，并具有列统计信息和页面索引。
压缩方式: ZSTD 级别 3 压缩。
精度说明: float16 精度，与 float32 源数据相比可保持余弦相似度的无损计算。

访问与使用建议

推荐工具: 建议使用 DuckDB 访问此数据集。
远程查询: 可直接从 HuggingFace 查询，无需下载全部数据。DuckDB 利用 Parquet 页面索引跳过不相关文件，使网络过滤查询快速进行。
切片下载: 支持按生物分类学层级（如特定科、目、种）下载数据子集，无需下载全部 331 GB 数据。
完整下载: 支持使用 huggingface-cli 下载全部数据文件进行全数据集分析。

配置信息

当前仅提供一个配置：

配置名称: bioclip-2_float16
模型: BioCLIP 2
精度: float16
文件: 685 个
大小: 331 GB
行数: 239,580,103

搜集汇总

数据集介绍

构建方式

在生物信息学领域，大规模图像数据的表示学习已成为推动物种识别与分类研究的关键。TreeOfLife-200M-Embeddings数据集的构建依托于先进的BioCLIP 2视觉语言模型，对原始TreeOfLife-200M图像库中的2.39亿幅生物图像进行深度特征提取，生成维度为768的浮点型嵌入向量。这些嵌入数据以Parquet格式存储，并按照界、门、纲、目、科、属、种的分类学层级进行排序，每个文件包含5万行数据并采用ZSTD三级压缩，既确保了数据的结构性，又优化了存储与查询效率。

特点

该数据集的核心特点在于其庞大的规模与精密的组织架构。嵌入向量采用float16精度保存，在保持与原始float32嵌入余弦相似度无损的前提下，显著降低了存储需求。数据按分类学树状结构排序，并配备行列组统计信息与页面索引，使得基于分类层级的过滤查询能够高效跳过无关文件。此外，数据集涵盖丰富的元数据字段，包括图像来源类型、记录依据与发布机构等信息，为多维度生物多样性分析提供了坚实基础。

使用方法

为高效利用这一海量嵌入数据集，推荐采用DuckDB进行远程或本地查询。用户无需下载全部数据，可直接通过HuggingFace路径进行网络查询，利用Parquet页面索引实现快速过滤；亦可按需下载特定分类群的数据切片，例如仅提取猫科或灵长目物种的嵌入。对于需要全数据集分析的场景，可通过huggingface-cli工具完整下载。在查询时需注意对SQL保留字‘order’和‘class’使用引号，以确保语法正确性。

背景与挑战

背景概述

在生物信息学与计算生态学领域，大规模生物图像数据的表示学习正成为推动物种识别与生物多样性研究的关键驱动力。TreeOfLife-200M-Embeddings数据集由Imageomics研究团队构建，其核心研究问题在于如何通过预训练的视觉语言模型BioCLIP 2，为TreeOfLife-200M图像库中的2.39亿幅生物图像生成高维嵌入向量，从而支持基于内容的物种检索、分类学层级分析以及跨模态生物信息挖掘。该数据集以MIT协议开源，不仅为生物学家提供了高效的图像语义表示工具，也为机器学习社区探索大规模多模态生物数据奠定了基础，显著提升了生物图像分析的自动化水平与可扩展性。

当前挑战

该数据集旨在应对生物图像分析中的核心挑战，即如何在极大规模且高度异构的生物图像数据中实现精准的物种识别与分类学关系建模。其构建过程面临多重技术难题：首先，原始图像数据来源多样，涵盖不同采集设备、光照条件与背景环境，需进行严格的质控与标准化处理；其次，生成2.39亿个高维嵌入向量涉及巨大的计算资源与存储开销，需优化分布式处理流程以确保效率与一致性；此外，维护分类学层级结构的完整性并在嵌入空间中保持物种间的语义关联，对模型表示能力提出了更高要求。这些挑战共同凸显了大规模生物数据集成与表示学习的前沿复杂性。

常用场景

经典使用场景

在生物信息学与计算生态学领域，大规模图像嵌入数据的处理常面临存储与检索效率的挑战。TreeOfLife-200M-Embeddings数据集通过提供239百万个经过BioCLIP 2模型生成的768维嵌入向量，并按照界门纲目科属种的分类层次排序，为研究者构建高效分类检索系统奠定了坚实基础。该数据集支持利用DuckDB进行远程查询，仅需数分钟即可从特定分类群中提取嵌入向量，极大简化了海量生物图像特征的分析流程。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在高效检索算法与跨模态学习框架上。研究者利用其排序结构与嵌入特征，开发了基于 taxonomic-aware 的近似最近邻搜索方法，大幅提升了大规模生物图像库的查询速度。同时，该数据集也常作为基准，用于评估视觉-语言模型在细粒度生物分类任务上的性能，催生了如层次化对比学习、多标签分类网络等创新模型，持续拓展了计算视觉在生物科学中的边界。

数据集最近研究