TreeOfLife-10M-EOL-NaturalImages

Hugging Face2025-09-15 更新2025-09-16 收录

下载链接：

https://huggingface.co/datasets/birder-project/TreeOfLife-10M-EOL-NaturalImages

下载链接

链接失效反馈

官方服务：

资源简介：

TreeOfLife-10M-EOL自然图像数据集是一个经过精心策划的版本，从TreeOfLife-10M-WEBP数据集中筛选出仅包含自然生物图像的训练分割。该数据集通过视觉数据清洗框架(VDC)系统地进行了清洗，移除非自然内容，同时保留高质量的生物样本。经过多阶段的清洗过程，包括初始清洗、去重、过滤自然图像和美学过滤，最终得到约560万张高质量的自然图像。这个数据集非常适合自监督学习、自然图像分类和其他需要清洁、多样化自然世界表示的计算机视觉任务。数据集还包括预先计算的分层K均值聚类分配和簇中心，以便进行自定义抽样和分析。

创建时间：

2025-09-14

原始信息汇总

TreeOfLife-10M-EOL-NaturalImages 数据集概述

数据集描述

TreeOfLife-10M-EOL-NaturalImages 是 TreeOfLife-10M-WEBP 数据集 EOL 训练分割的精选版本，经过过滤仅包含自然生物图像。该数据集使用 Vision Data Curation (VDC) 框架进行系统清理，移除非自然内容，同时保留高质量生物标本。

数据集摘要

此版本通过多阶段整理流程进一步优化数据集：

初始清理：检测并移除/修复损坏或无效图像
去重：使用 SSCD 嵌入识别并移除近似重复图像，防止数据冗余并提高训练效率
自然图像过滤：使用 PE-Core 嵌入进行基于示例的广泛过滤，移除非自然内容
美学过滤：使用 CLIP 衍生的美学评分识别并移除美学评分极低的图像

最终得到约 560 万张高质量自然图像，适用于自监督学习、自然图像分类等计算机视觉任务。

技术特性

包含预计算的分层 K-Means 聚类分配（hierarchical_kmeans_assignments.csv）
包含聚类中心点（hierarchical_kmeans_centers.csv）
提供分层采样前的原始版本，支持用户自定义采样策略

局限性

保持原始数据集的分类覆盖范围和类别不平衡限制
部分图像在 WEBP 转换步骤中调整了分辨率
过滤过程减少了图像总数
专门针对自然图像精选，不适用于需要文档、地图等非自然视觉内容的任务

许可证信息

遵循原始 TreeOfLife-10M 数据集的许可条款（CC0-1.0）。

引用信息

如需使用本数据集，请引用原始 TreeOfLife-10M 数据集及相关论文。如使用 VDC 框架，请同时引用该框架。

致谢

基于 Imageomics Institute 的 TreeOfLife-10M 创建者的卓越工作，所有原始数据收集、分类标记和科学贡献归功于原始团队。

搜集汇总

数据集介绍

构建方式

在生物多样性图像分析领域，TreeOfLife-10M-EOL-NaturalImages数据集通过多阶段精细化流程构建。基于Vision Data Curation框架，首先剔除损坏或无效图像，随后采用SSCD嵌入技术消除近重复样本以提升数据纯度。关键步骤在于利用PE-Core嵌入进行示例过滤，系统移除文档、图表、插图等非自然内容，辅以CLIP美学评分淘汰低质量图像，最终形成约560万张高质量自然生物图像集合。

特点

该数据集显著特征在于其纯粹的自然生物图像构成，涵盖真实环境下的生物标本摄影，排除了人工制图与文本干扰。数据经过层次化K-Means聚类处理，提供聚类分配与质心文件，支持用户自定义采样策略。尽管规模缩减至原数据集部分体量，但保留了原始分类体系与生物多样性表征，适用于自监督学习与细粒度视觉分析任务。

使用方法

研究者可借助预计算的层次聚类文件（hierarchical_kmeans_assignments.csv与centers.csv），通过VDC框架采样工具或自定义脚本构建代表性数据子集。该数据集适用于图像分类、零样本识别及特征提取等计算机视觉任务，尤其适合自然场景下的生物形态学研究。使用时需遵循原始CC0-1.0许可协议，并注意其 taxonomic coverage 与分辨率方面的固有局限。

背景与挑战

背景概述

TreeOfLife-10M-EOL-NaturalImages数据集由Imageomics研究所主导构建，2023年由Samuel Stevens等学者正式发布。该数据集聚焦于生物视觉计算领域，旨在为计算机视觉模型提供高质量的自然生物图像资源。通过整合生命百科全书（Encyclopedia of Life）的标注数据，其核心研究问题在于解决生物多样性图像的高效分类与零样本识别，为生物图像分析、自监督学习及跨模态理解提供了重要基础。该数据集的发布显著推动了计算生物学与计算机视觉的交叉研究，为生物形态学分析和物种识别任务设立了新的基准。

当前挑战

该数据集致力于解决自然生物图像分类与零样本识别中的领域挑战，包括类间相似性高、跨物种形态差异大以及标注噪声问题。构建过程中面临多重技术难题：需从原始数据中剔除非自然内容（如文档、图表及手绘图），并修复损坏图像；通过SSCD嵌入技术实现近重复图像去重，利用PE-Core嵌入过滤非自然图像，再结合CLIP美学评分移除低质量样本。此外，原始数据的类间不平衡与 taxonomic 覆盖偏差仍需后续处理，而部分图像的分辨率压缩也可能影响细粒度分析。

常用场景

经典使用场景

在生物多样性计算机视觉研究中，TreeOfLife-10M-EOL-NaturalImages数据集为自监督学习提供了高质量的天然图像资源。该数据集经过多阶段清洗流程，保留了560万张自然生物图像，涵盖丰富的物种视觉特征，成为训练视觉基础模型的理想选择。研究者利用其层次化聚类结构，能够有效开展零样本分类和图像特征提取任务，特别是在跨物种迁移学习场景中展现出色性能。

衍生相关工作

该数据集衍生出多项重要研究工作，其中最突出的是BioCLIP视觉基础模型的开发。研究者利用该数据集的层次化聚类结构，构建了基于对比学习的生物视觉表征框架，在CVPR 2024会议上发表相关成果。后续研究进一步探索了跨模态生物图像检索、物种分布预测等方向，推动了计算机视觉与生物信息学的交叉融合，为生命之树可视化分析提供了新的方法论基础。

数据集最近研究