ARBORETUM

Name: ARBORETUM
Creator: 爱荷华州立大学
Published: 2024-06-26 01:09:54
License: 暂无描述

arXiv2024-06-26 更新2024-07-30 收录

下载链接：

https://baskargroup.github.io/Arboretum/

下载链接

链接失效反馈

官方服务：

资源简介：

ARBORETUM是由爱荷华州立大学等机构创建的大型多模态数据集，旨在推动AI在生物多样性领域的应用。该数据集包含1.346亿张图像，涵盖鸟类、蜘蛛、昆虫、植物、真菌、软体动物和爬行动物等七大类群，总计约32.69万种物种。每张图像均附有科学名称、分类细节和常用名称，由领域专家审核确保准确性。数据集通过iNaturalist社区科学平台收集，经过精心筛选和处理，支持多模态视觉-语言AI模型的训练，特别适用于生物多样性评估和农业研究。ARBORETUM不仅促进了AI模型的发展，还为从害虫控制到全球生物多样性评估和环境保护等数字工具的开发提供了关键支持。

提供机构：

爱荷华州立大学

创建时间：

2024-06-26

搜集汇总

数据集介绍

构建方式

ARBORETUM数据集的构建方式涉及从iNaturalist社区科学平台收集图像，并由领域专家审核以确保数据的准确性。数据集涵盖了七个分类单元（鸟类、蜘蛛/蜱/螨、昆虫、植物、真菌/蘑菇、蜗牛和蛇/蜥蜴）的图像和语言配对数据，总计约1.3亿张图像，包含约32.7万个物种。每个图像都标注了科学名称、分类细节和常用名称，以便于AI模型的训练。数据集还包括一个开源的工具链，允许研究人员轻松访问和操作数据集，以及根据需要定义不同的子集。

特点

ARBORETUM数据集的特点在于其规模之大，是现有数据集的十倍以上，提供了丰富的物种多样性。数据集涵盖了七个分类单元的图像和语言配对数据，每个图像都标注了科学名称、分类细节和常用名称，增强了AI模型训练的鲁棒性。数据集还包括一个开源的工具链，允许研究人员轻松访问和操作数据集，以及根据需要定义不同的子集。此外，数据集还提供了两种语言的文本描述，包括常用名称和科学名称，以及详细的分类学层次结构，这有助于学习拉丁语和英语术语之间的关系，从而提高模型在科学环境中的应用性。

使用方法

ARBORETUM数据集的使用方法包括从iNaturalist社区科学平台下载图像，并由领域专家审核以确保数据的准确性。然后，研究人员可以使用开源的工具链轻松访问和操作数据集，并根据需要定义不同的子集。此外，数据集还提供了两种语言的文本描述，包括常用名称和科学名称，以及详细的分类学层次结构，这有助于学习拉丁语和英语术语之间的关系，从而提高模型在科学环境中的应用性。研究人员还可以使用数据集中的元数据来过滤特定的物种、可视化数据分布，并有效地管理分类不平衡。最后，数据集还提供了ARBORCLIP模型，这是一套在ARBORETUM样本子集上训练的视觉语言基础模型，可用于零样本（或少量样本）分类。

背景与挑战

背景概述

在人工智能领域，生物多样性保护和生态管理以及农业方面正面临着巨大的挑战。现有的AI方法在生物多样性应用中遇到了一些关键问题，例如训练数据集的创建既耗时又昂贵，仅涵盖了一小部分的视觉概念，而且标准的视觉模型在单个任务上表现出色，但对于新任务则需要大量的重新训练。此外，模型在泛化到未见过的标签和新环境时往往表现不佳，限制了它们在现实世界应用中的有效性。为了应对这些挑战，一些数据集已经推出，例如iNaturalist，它是一个在线社区科学平台，拥有庞大的生物多样性图像库。然而，昆虫（构成现有物种的很大一部分）在这些数据集中没有得到充分代表。为了解决这个问题，本文介绍了ARBORETUM，这是一个由iNaturalist社区科学平台精选并由领域专家验证以确保准确性的数据集。ARBORETUM包括1.346亿张图片，超过了现有的数据集规模，包括鸟类、蜘蛛/蜱/螨、昆虫、植物、真菌/蘑菇、蜗牛和蛇/蜥蜴等多样物种的图像-语言配对数据。每个图像都标注有科学名称、分类详细信息以及通用名称，增强了AI模型训练的鲁棒性。ARBORETUM有望推动AI模型的发展，从而实现从害虫控制策略、作物监测到全球生物多样性评估和环境保育的各种数字工具。

当前挑战

ARBORETUM数据集在构建过程中面临了一些挑战。首先，iNaturalist开放数据平台的数据虽然易于下载，但不是为AI研究而设计的，需要进行预处理和整合。其次，数据集的规模巨大，需要有效的数据过滤和预处理方法来管理类别的平衡和防止过拟合。此外，ARBORETUM数据集还面临着如何将科学名称（拉丁语）与普通名称（英语）相结合的挑战，因为拉丁语是一种低资源的语言，当前的视觉-语言模型在处理科学名称时表现不佳。为了解决这个问题，ARBORETUM数据集采用了结构化的文本描述，包括普通名称、科学名称和详细的分类学层次结构，以促进拉丁语和英语术语之间的学习关系，从而提高模型在科学环境中的应用性。最后，ARBORETUM数据集还包括了如何处理具有冒犯性内容的挑战，例如死去的或残缺的动物的图片，这些内容虽然有时可以提供宝贵的科学数据，但也可能对用户造成困扰。

常用场景

经典使用场景

在生物多样性的评估和农业研究中，ARBORETUM数据集的图像-语言配对数据为鸟类、节肢动物、昆虫、植物、真菌、软体动物和爬行动物等物种提供了丰富的视觉信息。这一数据集不仅包括了科学名称和俗名，还包含了详细的分类学信息，为多模态视觉-语言AI模型的训练提供了强大的支持。ARBORETUM数据集最经典的使用场景包括对物种进行自动识别、监测生态变化、优化作物管理等方面，为AI工具的开发提供了重要的数据基础。

实际应用

ARBORETUM数据集的实际应用场景非常广泛。在农业领域，它可以帮助开发害虫控制策略和作物监测工具，提高农业生产的效率和质量。在生态保护方面，ARBORETUM数据集可以用于监测生物多样性，评估生态系统的健康状况，为制定保护和恢复计划提供科学依据。此外，ARBORETUM数据集还可以用于教育和科研领域，帮助人们更好地了解自然界的生物多样性。

衍生相关工作

基于ARBORETUM数据集，研究人员已经开发出了一系列新的AI模型，如ARBORCLIP，这些模型在零样本学习、细粒度图像分类等任务中表现出色。此外，ARBORETUM数据集还衍生出了一些新的基准测试数据集，如ARBORETUM-Balanced、ARBORETUM-Unseen和ARBORETUM-LifeStages，这些数据集为评估AI模型在生物多样性应用中的性能提供了重要的参考标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集