five

INQUIRE|生物多样性监测数据集|文本到图像检索数据集

收藏
arXiv2024-11-12 更新2024-11-07 收录
生物多样性监测
文本到图像检索
下载链接:
https://inquire-benchmark.github.io/
下载链接
链接失效反馈
资源简介:
INQUIRE是一个专为专家级文本到图像检索任务设计的新型基准数据集,包含250个专家级查询,覆盖了广泛的生态和生物多样性概念。数据集基于iNaturalist 2024(iNat24),包含五百万张自然世界图像,涵盖10,000个物种。查询内容包括物种识别、行为、外观等,需要细致的图像理解和领域专业知识。数据集的创建过程涉及与多位领域专家的访谈和学术文献的审查,确保查询的科学性和实用性。INQUIRE旨在解决复杂的多模态视觉语言模型在专家级查询中的表现问题,推动生态和生物多样性研究的发展。

INQUIRE is a novel benchmark dataset designed specifically for expert-level text-to-image retrieval tasks, containing 250 expert-level queries that cover a wide range of ecological and biodiversity concepts. Based on iNaturalist 2024 (iNat24), the dataset includes five million natural world images, spanning 10,000 species. The queries encompass species identification, behavior, and appearance, requiring meticulous image understanding and domain expertise. The creation process of the dataset involves interviews with several domain experts and a review of academic literature to ensure the scientific and practical nature of the queries. INQUIRE aims to address the performance issues of complex multimodal visual language models in expert-level queries and to promote the development of ecological and biodiversity research.
提供机构:
麻省理工学院、伦敦大学学院、爱丁堡大学、马萨诸塞大学阿默斯特分校
创建时间:
2024-11-05
原始信息汇总

INQUIRE 数据集概述

数据集简介

INQUIRE 是一个用于自然世界图像检索的基准数据集,包含 200 个具有挑战性的生态查询,这些查询在一个新的 500 万张图像的 iNaturalist (iNat24) 子集上进行了全面标注。

数据集特点

  • 查询数量: 200 个挑战性查询
  • 图像数量: 500 万张图像
  • 标注: 全面标注

数据集目标

鼓励社区构建下一代图像检索方法,以加速和自动化科学发现。

数据集链接

作者信息

  • Edward Vendrow (MIT)
  • Omiros Pantazis (UCL)
  • Alexander Shepard (iNaturalist)
  • Gabriel Brostow (UCL)
  • Kate E. Jones (UCL)
  • Oisin Mac Aodha (University of Edinburgh)
  • Sara Beery (MIT)
  • Grant Van Horn (University of Massachusetts, Amherst)

评估方法

  • 任务: Fullrank 和 Rerank
  • 评估方式: 零样本评估,无额外提示调整或上下文演示
  • 指标: AP@50,即前 50 个检索图像的平均精度

排行榜

INQUIRE-Fullrank Leaderboard

方法 大小 总体 外观 行为 上下文 物种
CLIP ViT-H/14-378 (DFN) Top 100 → GPT-4o - 47.1 36.6 49.7 51.9 59.4
CLIP ViT-H/14-378 (DFN) Top 100 → VILA1.5-40B - 42.1 32.5 44.7 46.7 52.4
CLIP ViT-H/14-378 (DFN) Top 100 → GPT-4-Turbo (20240409) - 38.8 29.7 40.0 42.2 54.7
CLIP ViT-H/14-378 (DFN) Top 100 → PaliGemma-3B-mix-448 - 37.7 27.2 41.2 41.7 48.6
CLIP ViT-H/14-378 (DFN) Top 100 → LLaVA-v1.6-34B - 37.4 28.0 39.0 41.8 50.8
CLIP ViT-H/14-378 (DFN) 987M 35.6 25.7 38.7 36.5 52.7
SigLIP SO400m-14-384 878M 34.9 30.5 35.7 36.0 42.6
SigLIP ViT-L/16-384 652M 31.6 24.1 33.0 33.8 44.5
CLIP ViT-L/14 (DFN) 428M 24.6 18.4 24.0 26.3 40.9
CLIP ViT-B/16 (DFN) 150M 16.2 12.0 16.8 15.7 28.3
CLIP ViT-L/14 (OpenAI) 428M 15.8 14.9 15.3 14.3 23.6
CLIP RN50x16 (OpenAI) 291M 14.3 10.4 15.8 13.3 23.3
CLIP ViT-B/16 (OpenAI) 150M 11.4 9.8 10.6 11.2 19.0
CLIP ViT-B/32 (OpenAI) 110M 8.2 5.8 7.6 8.9 16.1
CLIP RN50 (OpenAI) 102M 7.6 5.7 7.3 7.9 13.8
WildCLIP-t1 150M 7.5 5.2 8.0 7.0 13.2
WildCLIP-t1t7-lwf 150M 7.3 6.5 6.8 6.4 13.1
BioCLIP 150M 3.6 2.3 0.5 2.2 21.1
Random - 0.0 0.0 0.0 0.0 0.0

INQUIRE-Rerank Leaderboard

方法 大小 总体 外观 行为 上下文 物种
GPT-4o - 62.4 59.7 61.9 70.6 42.4
VILA1.5-40b 40B 54.3 50.4 55.1 61.9 36.0
SigLIP SO400m-14-384 878M 51.5 51.8 51.7 53.4 38.8
GPT-4-Turbo (20240409) - 48.9 43.7 49.6 56.6 39.7
PaliGemma-3b-mix-448 3B 48.9 44.1 51.6 53.8 35.3
LLaVA-v1.6-34b 34B 48.3 43.7 48.7 56.4 34.7
SigLIP ViT-L/16-384 652M 47.5 42.8 50.2 52.1 34.7
VILA1.5-13B 13B 46.3 40.2 46.5 56.8 32.7
CLIP ViT-H/14-378 (DFN) 987M 44.6 38.8 50.1 47.4 28.6
InstructBLIP-FLAN-T5-XXL 12B 44.3 38.7 45.9 50.7 37.2
LLaVA-v1.6-mistral-7b 7B 43.1 39.0 42.7 51.5 31.7
LLaVA-1.5-13b 13B 43.0 37.7 45.1 48.9 32.7
BLIP-2-FLAN-T5-XXL 12B 40.5 32.8 43.4 47.9 32.4
CLIP ViT-L/14 (DFN) 428M 39.1 34.9 40.7 43.3 33.4
CLIP ViT-L/14 (OpenAI) 428M 37.8 35.1 37.9 41.4 37.6
CLIP RN50x16 (OpenAI) 291M 36.2 32.7 36.1 40.5 39.8
CLIP ViT-B/16 (DFN) 150M 33.7 29.4 35.4 37.2 31.5
CLIP ViT-B/16 (OpenAI) 150M 33.5 30.8 32.9 37.2 37.1
WildCLIP-t1 150M 31.6 28.2 31.0 36.5 34.3
WildCLIP-t1t7-lwf 150M 31.5 29.0 30.5 35.2 37.4
CLIP ViT-B/32 (OpenAI) 151M 31.3 26.9 30.4 37.3 37.0
CLIP RN50 (OpenAI) 102M 31.2 28.8 30.3 35.0 35.2
BioCLIP 150M 28.9 27.4 27.2 30.8 41.1
Random - 23.0 - - - -
AI搜集汇总
数据集介绍
main_image_url
构建方式
INQUIRE数据集的构建方式是通过从iNaturalist平台收集的五百万张自然世界图像中,精心挑选并标注了250个专家级别的查询。这些查询涵盖了生态和生物多样性的多个概念,需要推理、图像理解和领域专业知识。数据集的构建过程包括与生态学家、生物学家、鸟类学家、昆虫学家、海洋学家和林业专家的讨论和访谈,以确保查询的相关性和准确性。
特点
INQUIRE数据集的主要特点是其高度的专业性和复杂性。查询不仅涉及物种识别,还包括上下文、行为和外观等多个类别,强调了需要细致图像理解和领域专业知识的任务。此外,数据集包括两个核心检索任务:INQUIRE-FULLRANK(全数据集排序任务)和INQUIRE-RERANK(重排序任务),旨在全面评估多模态视觉-语言模型的能力。
使用方法
INQUIRE数据集的使用方法主要包括两个任务:INQUIRE-FULLRANK和INQUIRE-RERANK。INQUIRE-FULLRANK任务要求从整个五百万张图像的数据集中进行端到端的检索,而INQUIRE-RERANK任务则评估从固定初始排序的100张图像中进行重排序的性能。通过这两个任务,研究人员可以探索和改进在大规模图像集合中进行专家级别检索的方法。
背景与挑战
背景概述
INQUIRE(INQUIRE: A Natural World Text-to-Image Retrieval Benchmark)是由Edward Vendrow、Omiros Pantazis、Alexander Shepard、Gabriel Brostow、Kate E. Jones、Oisin Mac Aodha、Sara Beery和Grant Van Horn等人创建的一个文本到图像检索基准数据集。该数据集于2024年发布,旨在挑战多模态视觉语言模型在专家级查询上的表现。INQUIRE包含iNaturalist 2024(iNat24),一个包含五百万张自然世界图像的新数据集,以及250个专家级检索查询。这些查询涵盖了生态和生物多样性概念,需要推理、图像理解和领域专业知识。该数据集的引入旨在填补现有检索数据集的空白,这些数据集通常较小且缺乏对复杂视觉推理任务的挑战。
当前挑战
INQUIRE数据集面临的挑战包括:1) 解决图像分类领域中的复杂问题,如物种识别、上下文、行为和外观的细粒度检索;2) 在构建过程中遇到的挑战,如确保查询的全面标注和处理大规模图像数据集。此外,该数据集还强调了在实际科学研究中,如生态和生物多样性监测中,AI能力与实际需求之间的差距。当前的多模态模型在INQUIRE上的表现仍未达到理想水平,表明在开发能够加速生态和生物多样性研究的检索系统方面仍有显著的改进空间。
常用场景
经典使用场景
INQUIRE 数据集的经典使用场景在于评估多模态视觉-语言模型在专家级文本到图像检索任务中的表现。该数据集包含250个专家级别的检索查询,涵盖生态和生物多样性概念,要求模型具备推理、图像理解和领域专业知识。通过INQUIRE-FULLRANK和INQUIRE-RERANK两个核心检索任务,研究人员可以全面评估模型在大型图像集合中的专家级检索能力。
解决学术问题
INQUIRE 数据集解决了当前多模态模型在领域特定、专家级查询评估中的显著差距。这些模型在零样本分类、视觉问答和图像检索等任务中表现出色,但在需要细微理解和精确检索的专家级查询中表现不足。通过聚焦于科学驱动的生态挑战,INQUIRE 旨在弥合AI能力与现实世界科学探究需求之间的差距,推动开发能够加速生态和生物多样性研究的检索系统。
衍生相关工作
INQUIRE 数据集的发布催生了多项相关研究工作,特别是在多模态视觉-语言模型的改进和评估方面。例如,研究人员利用INQUIRE进行模型微调,以提高其在自然世界图像检索任务中的表现。此外,该数据集还激发了对现有模型在复杂视觉领域中表现的深入分析,推动了新一代图像检索方法的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题