imageomics/TreeOfLife-10M
收藏数据集卡片 for TreeOfLife-10M
数据集描述
TreeOfLife-10M 是一个包含超过 1000 万张图像的数据集,涵盖了生命之树中的 454,000 个物种。它是迄今为止最大的机器学习就绪的生物图像数据集,每个图像都标有最具体的分类标签。数据集主要从 Encyclopedia of Life (eol.org) 收集,并结合了 iNat21 和 BIOSCAN-1M 等高质量数据集。
数据集摘要
- 图像数量: 超过 1000 万张
- 物种数量: 454,000 个
- 标签类型: 每个图像标有最具体的分类标签,包括从界到种的分类等级
- 目的: 用于训练 BioCLIP 和其他生物基础模型
支持的任务和排行榜
- 任务: 图像分类、零样本和少量样本分类
语言
- 英语、拉丁语
数据集内容
数据集结构如下:
/dataset/ EOL/ image_set_01.tar.gz ... image_set_63.tar.gz metadata/ catalog.csv species_level_taxonomy_chains.csv taxon.tab licenses.csv visuals/ kingodm_ToL_tree.html ... phyla_ToL_tree.png
每个 image_set 包含约 10 万张图像,每张图像名为 <treeoflife_id>.jpg。
数据实例
数据集包含图像及其关联文本,文本包含图像主题的林奈分类(从界到种)和常见名称(如果可用)。
数据字段
元数据文件
catalog.csv: 包含每个图像的元数据,如分割、唯一标识符、EOL 内容 ID 等。species_level_taxonomy_chains.csv: 包含 ITIS 分类层次结构。taxon.tab: 包含基于 EOL 页面 ID 的分类信息。licenses.csv: 包含每个图像的许可证、来源和版权持有者信息。
数据分割
数据集分为训练集、验证集和训练小集(train_small),其中 train_small 是 train 的一个 100 万图像的子集。
数据集创建
策划理由
先前最大的生物图像数据集是 iNat21,包含 270 万张图像和 10,000 个物种。为了增加物种多样性,数据集从 Encyclopedia of Life (EOL) 收集了 660 万张图像,覆盖了额外的 44 万个物种。
源数据
- iNat21 数据
- BIOSCAN-1M 数据
- EOL 数据
初始数据收集和规范化
iNat21 和 BIOSCAN-1M 数据被下载并分配了 treeoflife_id,然后从 EOL 下载图像并命名。
注释
注释主要来自图像来源提供者,如 iNat21 和 BIOSCAN-1M 的标签,以及 EOL 的科学名称和分类信息。




