Arboretum

github2024-06-14 更新2024-06-27 收录

下载链接：

https://github.com/baskargroup/Arboretum

下载链接

链接失效反馈

官方服务：

资源简介：

Arboretum是一个大型多模态数据集，旨在通过AI技术推动生物多样性研究。

Arboretum is a large-scale multimodal dataset designed to advance biodiversity research via artificial intelligence technologies.

创建时间：

2024-05-27

原始信息汇总

Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity

数据预处理

下载元数据：从Hugging Face下载元数据。
预处理步骤：
1. 处理元数据文件以获取类别和物种分布。
2. 根据用户定义的阈值过滤元数据并生成随机块。
3. 根据元数据中的URL下载图像。
4. 为图像生成文本标签。

模型训练

训练模型：使用修改版的BioCLIP / OpenCLIP代码库训练三个模型。
训练环境：在NYU的Greene高性能计算集群上，2个节点，8xH100 GPU，40个周期。
训练参数：

--dataset-type webdataset --pretrained openai --text_type random --dataset-resampled --warmup 5000 --batch-size 4096 --accum-freq 1 --epochs 40 --workers 8 --model ViT-B-16 --lr 0.0005 --wd 0.0004 --precision bf16 --beta1 0.98 --beta2 0.99 --eps 1.0e-6 --local-loss --gather-with-grad --ddp-static-graph --grad-checkpointing

模型验证

验证工具：使用VLHub进行零样本准确性验证。
预运行步骤：
- 安装项目要求：pip install -r requirements.txt
- 设置PYTHONPATH：export PYTHONPATH="$PYTHONPATH:$PWD/src";
基本评估命令： bash python src/training/main.py --batch-size=32 --workers=8 --imagenet-val "/imagenet/val/" --model="resnet50" --zeroshot-frequency=1 --image-size=224 --resume "/PATH/TO/WEIGHTS.pth" --report-to wandb

基准模型：

模型名称	来源	检查点路径	运行标志
BioCLIP	arXiv	Hugging Face	`--model ViT-B-16 --resume "/PATH/TO/bioclip_ckpt.bin"`
OpenAI CLIP	arXiv	自动下载	`--model ViT-B-16 --pretrained=openai`
MetaCLIP-cc	GitHub	自动下载	`--model ViT-L-14-quickgelu --pretrained=metaclip_fullcc`

现有基准：

基准名称	图像URL	元数据路径	运行标志
Arboretum-Balanced	Hugging Face	`model_validation/metadata/arboretum_test_metadata.csv`	`--arbor-val --taxon MY_TAXON`
Arboretum-Lifestages	Hugging Face	`model_validation/metadata/final_lifestages_metadata.csv`	`--lifestages --taxon MY_TAXON`
Arboretum-Rare	Hugging Face	`model_validation/metadata/arboretum_rare_combined_metadata.csv`	`--arbor-rare --taxon MY_TAXON`
BioCLIP Rare	Hugging Face	`model_validation/metadata/bioclip-rare-metadata.csv`	`--bioclip-rare --taxon MY_TAXON`
Birds525	Kaggle	`model_validation/metadata/birds525_metadata.csv`	`--birds /birds525 --ds-filter birds`
Confounding Species	TBD	`model_validation/metadata/confounding_species.csv`	`--confounding`
Deepweeds	Kaggle	`model_validation/metadata/deepweeds_metadata.csv`	`--deepweeds`
Fungi	CVUT	`model_validation/metadata/fungi_metadata.csv`	`--fungi`
IP102 Insects	Kaggle	`model_validation/metadata/ins2_metadata.csv`	`--insects2`

搜集汇总

数据集介绍

构建方式

在构建Arboretum数据集时，研究团队首先从Hugging Face下载了元数据，并利用`biotrove_process`库进行预处理。该库通过四个步骤生成机器学习就绪的图像-文本对：处理元数据文件以获取类别和物种分布，根据用户定义的阈值过滤元数据并生成打乱的分块，基于元数据中的URL下载图像，以及为图像生成文本标签。这一过程确保了数据集的高质量和多样性，为后续的模型训练提供了坚实的基础。

使用方法

使用Arboretum数据集时，用户首先需要从Hugging Face下载元数据，并使用`biotrove_process`库进行预处理。随后，用户可以根据需要选择不同的模型进行训练，如BioCLIP、OpenAI CLIP和MetaCLIP等。训练过程中，用户可以通过调整超参数来优化模型性能。此外，数据集还提供了详细的模型验证方法，用户可以通过VLHub库对模型进行零样本准确性验证，并与现有基准进行比较。

背景与挑战

背景概述

Arboretum数据集，正式名称为BioTrove，是由Baskar Ganapathysubramanian领导的团队创建的一个大型精选图像数据集，旨在推动人工智能在生物多样性研究中的应用。该数据集的创建时间可追溯至2024年，其核心研究问题是如何利用多模态数据集来提升生物多样性分类和识别的准确性。BioTrove不仅包含了丰富的生物图像数据，还整合了相关的文本信息，为研究人员提供了一个全面的数据平台。该数据集的发布对生物信息学和生态学领域产生了深远影响，为AI技术在这些领域的应用提供了坚实的基础。

当前挑战

BioTrove数据集在构建过程中面临了多个挑战。首先，数据预处理阶段需要处理大量的元数据文件，并生成机器学习就绪的图像-文本对，这一过程涉及复杂的过滤和标签生成。其次，模型训练阶段需要在高性能计算集群上进行，且需要优化大量超参数，以确保模型的准确性和效率。此外，模型验证阶段需要与多个现有基准进行比较，并引入新的基准测试，以全面评估模型的性能。这些挑战不仅涉及技术层面的复杂性，还包括数据集的规模和多样性带来的管理难题。

常用场景

经典使用场景

Arboretum数据集在生物多样性研究中扮演着至关重要的角色，其经典使用场景主要集中在利用大规模图像数据进行物种分类和识别。通过结合图像和文本数据，研究人员能够训练出高效的深度学习模型，如BioCLIP和OpenCLIP，这些模型在处理生物图像时表现出色，能够准确识别和分类不同物种，从而为生物多样性保护和研究提供强有力的技术支持。

解决学术问题

Arboretum数据集解决了生物多样性研究中长期存在的物种识别难题。传统方法依赖于专家知识和有限的数据样本，难以应对多样性和复杂性极高的生物图像。通过提供大规模、高质量的图像和文本数据，Arboretum数据集使得机器学习模型能够更准确地进行物种分类和识别，极大地推动了生物多样性研究的进展，并为相关领域的学术研究提供了新的可能性。

实际应用

在实际应用中，Arboretum数据集被广泛用于生态监测、物种保护和环境评估等领域。例如，通过训练的模型可以快速识别野外采集的生物图像，帮助研究人员和保护工作者及时了解物种分布和变化情况。此外，该数据集还支持开发智能化的生物多样性监测系统，提高生态保护工作的效率和准确性，为全球生物多样性保护提供了重要的技术支持。

数据集最近研究