基于互联网规模生态数据的视觉搜索数据集
收藏arXiv2025-05-16 更新2025-05-20 收录
下载链接:
https://search-tta.github.io
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于互联网规模生态数据构建的视觉搜索数据集,旨在解决在卫星图像中目标不可见的情况下进行视觉搜索的问题。数据集包含437k张训练图像和4k张验证图像,图像均标记有多个未见分类目标的坐标。该数据集的创建过程使用了Sentinel-2卫星图像和iNat2021数据集,并利用了生物分类法的层次结构,以促进在不同层次上进行基准评估。数据集主要用于评估Search-TTA框架的性能,该框架能够在搜索过程中动态地改进视觉模型的预测。
This dataset is a visual search dataset constructed using internet-scale ecological data, aimed at addressing the visual search problem where targets are not visible in satellite imagery. It contains 437k training images and 4k validation images, with each image annotated with coordinates of multiple targets from unseen categories. Developed with Sentinel-2 satellite imagery and the iNat2021 dataset, this dataset utilizes the hierarchical structure of biological taxonomy to enable benchmark evaluation across various taxonomic levels. It is primarily employed to evaluate the performance of the Search-TTA framework, which can dynamically improve the prediction outputs of visual models during the search procedure.
提供机构:
新加坡国立大学, 多伦多大学, 印度理工学院-达南德分校, 新加坡科技工程
创建时间:
2025-05-16
搜集汇总
数据集介绍
构建方式
该数据集基于互联网规模的生态数据构建,通过整合Sentinel-2卫星图像与iNat2021数据集中的坐标信息,形成了包含437k训练图像和4k验证图像的大规模视觉搜索数据集。数据集的构建过程包括卫星图像与地面图像的配对、非重叠图像的筛选以及目标坐标的标注,确保了数据的多样性和代表性。此外,通过GPT4o辅助生成语义分割掩膜和概率评分图,进一步丰富了数据集的标注信息。
特点
该数据集的特点在于其专注于卫星图像中不可见目标的视觉搜索任务,填补了现有数据集中此类目标的不足。数据集包含多层次分类标签,支持不同粒度下的模型评估。此外,数据集覆盖广泛的地理区域和多样的生态分类,确保了模型的泛化能力。通过结合卫星图像与地面图像的对比学习,数据集为多模态视觉搜索任务提供了丰富的语义信息。
使用方法
该数据集的使用方法包括多模态输入的支持,如文本和图像查询,适用于视觉语言模型的训练与评估。研究人员可以利用该数据集进行视觉搜索算法的开发,特别是在测试时自适应(TTA)框架下的性能优化。数据集还支持硬件在环测试,可用于真实无人机的视觉搜索任务验证。具体使用时,建议结合预训练的CLIP模型和对比学习策略,以充分利用数据集的语义对齐特性。
背景与挑战
背景概述
基于互联网规模生态数据的视觉搜索数据集由新加坡国立大学和多伦多大学的研究团队于2025年创建,旨在解决自主视觉搜索(AVS)中卫星图像与地面图像之间的语义鸿沟问题。该数据集整合了Sentinel-2卫星图像和iNat2021生态坐标数据,包含437k训练样本和4k验证样本,覆盖植物、昆虫、鸟类等11类生物分类。其创新性在于通过多模态对齐和测试时适应机制(TTA),显著提升了在目标不可见场景下的间接视觉线索推理能力,为生态监测和机器人探索提供了重要基准。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决卫星图像中目标不可见导致的低分辨率语义推理难题,现有模型难以从植被覆盖等间接线索预测目标分布;在构建层面,面临跨模态数据对齐的复杂性,包括卫星与地面图像的空间尺度差异、生态坐标的稀疏性标注,以及GPT4o生成分数图时的幻觉修正。此外,测试时适应机制需平衡梯度更新的稳定性与动态分布偏移的适应性,这对实时搜索算法的计算效率提出了苛刻要求。
常用场景
经典使用场景
该数据集在生态监测和自主视觉搜索领域具有广泛的应用价值,特别是在无人机(UAV)等移动机器人平台上。通过结合卫星图像和地面生态数据,该数据集能够为视觉搜索任务提供高层次的先验信息,即使目标在卫星图像中不可见。其经典使用场景包括野生动物监测、环境变化追踪以及生态多样性研究。
解决学术问题
该数据集解决了视觉搜索中目标在卫星图像中不可见的问题,弥补了现有数据集中目标代表性不足的缺陷。通过引入多模态测试时适应框架(Search-TTA),该数据集能够有效利用间接视觉线索进行推理,显著提升了视觉搜索的效率和准确性。此外,该数据集还解决了视觉语言模型(VLM)在跨域输入时产生的幻觉问题,为生态监测等实际应用提供了可靠的解决方案。
衍生相关工作
该数据集衍生了一系列经典工作,特别是在多模态视觉搜索和测试时适应领域。例如,基于该数据集的Search-TTA框架被扩展用于多目标视觉搜索和动态环境适应。此外,该数据集还启发了其他研究,如结合热成像传感器的跨模态视觉搜索,以及用于生态多样性评估的自动化监测系统。这些工作进一步推动了视觉搜索技术在生态学和机器人学中的应用。
以上内容由遇见数据集搜集并总结生成



