VLM4Bio

Name: VLM4Bio
Creator: 弗吉尼亚理工大学
Published: 2024-08-29 07:53:57
License: 暂无描述

arXiv2024-08-29 更新2024-08-31 收录

下载链接：

https://github.com/sammarfy/VLM4Bio

下载链接

链接失效反馈

官方服务：

资源简介：

VLM4Bio数据集由弗吉尼亚理工大学等机构创建，专注于生物学图像中的特性发现。该数据集包含约469K个问题-答案对，基于30K张来自鱼类、鸟类和蝴蝶的图像，覆盖五个生物学相关任务。数据集的创建过程包括图像收集、预处理和手动标注，旨在评估视觉-语言模型在生物学领域的零样本学习能力，特别是在物种分类、特性识别、特性定位、特性指称和特性计数等任务中的表现。

The VLM4Bio dataset, created by Virginia Tech and other institutions, focuses on feature discovery in biological images. It contains approximately 469K question-answer pairs based on 30K images of fish, birds and butterflies, covering five biology-related tasks. The dataset construction process includes image collection, preprocessing and manual annotation, and aims to evaluate the zero-shot learning capabilities of vision-language models in the biological domain, particularly in tasks such as species classification, feature recognition, feature localization, feature reference and feature counting.

提供机构：

弗吉尼亚理工大学

创建时间：

2024-08-29

搜集汇总

数据集介绍

构建方式

VLM4Bio数据集的构建方式包括从FishAIR、Jiggins Heliconius Collection和CUB-200-2011等数据源收集鱼类、鸟类和蝴蝶的图像，并进行预处理，包括去除背景、裁剪等。数据集包含约30K张图像，涵盖了鱼类、鸟类和蝴蝶三个分类单元。研究人员利用生物专家的帮助，手动创建了约31K个开放和多项选择（MC）问题-答案对，用于评估物种分类任务。此外，还创建了约380K个问题-答案对，用于评估特征识别任务。对于特征定位和引用VQA任务，研究人员手动标注了500个鱼类样本和500个鸟类样本的特征边界框，生成了约26K个问题-答案对。最后，研究人员使用Fish-500数据集进行特征计数任务，生成了约1K个问题-答案对。整个数据集包含约469K个问题-答案对。

特点

VLM4Bio数据集的特点在于它专注于生物多样性图像，涵盖了鱼类、鸟类和蝴蝶三个分类单元，并针对生物学家在生物分类学领域的需求，设计了五个相关的任务：物种分类、特征识别、特征定位、特征引用和特征计数。数据集包含了大量的开放和多项选择问题，以及手动标注的特征数据，为评估预训练视觉语言模型（VLM）在生物领域的性能提供了一个全面的基准。

使用方法

使用VLM4Bio数据集的方法包括首先了解数据集中的五个生物相关任务：物种分类、特征识别、特征定位、特征引用和特征计数。然后，研究人员可以选择一个或多个VLM模型，并在数据集上进行评估。评估可以使用微平均准确率作为评价指标，并与随机选择的基线进行比较。此外，研究人员还可以探索不同的提示技术，如上下文提示、密集字幕提示和思维链提示，以改善VLM的性能。最后，可以使用推理幻觉测试，如虚假信心测试和“都不是”测试，来评估VLM的逻辑一致性和事实准确性。

背景与挑战

背景概述

VLM4Bio数据集的创建旨在评估预训练的视觉语言模型（VLMs）在生物图像中特征发现方面的能力。该数据集由来自鱼类、鸟类和蝴蝶三个生物类群的30K图像组成，包含约469K个问答对，涵盖物种分类、特征识别、特征定位、特征引用和特征计数五个与生物学相关的任务。VLM4Bio数据集由来自弗吉尼亚理工大学、加州大学尔湾分校、北卡罗来纳大学教堂山分校、杜兰大学、俄亥俄州立大学、杜克大学、巴特尔研究所、伦斯勒理工学院、橡树岭国家实验室的研究人员共同创建。该数据集为生物学家提供了一种新的工具，可以加速对生物特征的科学发现，并对理解和监测生物多样性以及气候变化对物种特征和种群的影响具有重要意义。

当前挑战

VLM4Bio数据集面临的主要挑战包括：1) VLMs在处理开放性问题时的准确性较低，这表明它们在捕捉必要的科学知识以区分物种方面存在差距；2) VLMs在定位图像中的特征方面存在困难，这限制了它们在视觉推理方面的能力；3) VLMs在计数生物特征方面的表现不佳，这表明它们在执行这种类型的任务时存在局限性。此外，VLM4Bio数据集目前只涵盖了三种生物类群，未来需要添加更多物种和手动标注的性状数据。同时，由于资源限制，某些专有的VLMs未能包含在评估中。

常用场景

经典使用场景

VLM4Bio数据集作为评估预训练视觉语言模型（VLMs）在生物图像中进行性状发现的基准数据集，为生物多样性研究和生物特征识别提供了强大的工具。该数据集包含了来自鱼类、鸟类和蝴蝶三个分类群的约30万张图像和46.9万个问答对，涵盖了物种分类、性状识别、性状定位、性状指称和性状计数等五个生物学相关任务。VLM4Bio数据集的经典使用场景包括但不限于生物分类、生物性状识别和性状定位，为生物学家提供了一个高效的分析平台，有助于加速生物多样性研究和生物特征识别的进程。

衍生相关工作

VLM4Bio数据集的发布衍生了一系列相关的研究工作，如生物图像分析、视觉问答系统、多模态推理等。这些研究工作进一步推动了预训练VLMs在生物图像分析中的应用，为生物学家提供更强大的数据分析能力。例如，基于VLM4Bio数据集的研究可以帮助生物学家更深入地理解生物图像中的特征和模式，从而开发更精确的生物分类和性状识别算法。此外，VLM4Bio数据集还可以用于开发新的视觉问答系统，帮助生物学家更有效地获取生物图像中的信息。

数据集最近研究