five

OVDEval|开放词汇检测数据集|模型评估数据集

收藏
arXiv2023-12-18 更新2024-06-21 收录
开放词汇检测
模型评估
下载链接:
https://github.com/om-ai-lab/OVDEval
下载链接
链接失效反馈
资源简介:
OVDEval是由西北工业大学等机构联合创建的综合性开放词汇检测评估数据集,包含20000张高质图像和3000个精细标注的标签。该数据集分为9个子集,涵盖6个语言方面,旨在全面测试模型在常识知识、属性理解、位置理解、对象关系理解等方面的能力。通过精心设计,确保所有负标签均为挑战性强的硬负样本,从而严格测试模型的真实理解能力。OVDEval不仅揭示了现有开放词汇检测模型的弱点,还指导了未来研究的方向,特别是在处理复杂语言描述的检测任务上。
提供机构:
西北工业大学
创建时间:
2023-08-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
OVDEval数据集通过精心设计,涵盖了9个子任务,分别针对对象、专有名词、属性、位置、关系和否定等6个语言层面进行评估。数据集的构建过程中,研究团队从多个来源收集图像,包括COCO、HICO和Visual Genome等流行数据集,并结合Laion-400m等资源。为了确保数据质量,所有标注均由专家手动完成,并引入了细粒度的硬负样本,以挑战模型的视觉和语言理解能力。
特点
OVDEval数据集的显著特点在于其多维度的评估方式,涵盖了从对象识别到常识理解等多个复杂任务。每个子数据集都经过精心设计,包含硬负样本,确保模型在面对复杂语言描述时能够展现出真实的理解能力。此外,数据集还引入了新的评估指标NMS-AP,以解决传统AP指标在处理细粒度标签时的局限性。
使用方法
OVDEval数据集可用于评估开放词汇检测模型的多方面能力,包括对象识别、属性理解、位置定位、关系推理和否定表达等。研究者可以通过该数据集对模型进行全面测试,以揭示其在不同任务中的表现。此外,数据集还提供了新的NMS-AP评估指标,帮助研究者更准确地衡量模型在处理复杂语言描述时的性能,从而为模型的改进提供指导。
背景与挑战
背景概述
近年来,计算机视觉领域的目标检测(Object Detection, OD)技术取得了显著进展,从封闭标签集逐渐过渡到基于大规模视觉-语言预训练(Vision-Language Pre-Training, VLP)的开放词汇检测(Open-Vocabulary Detection, OVD)。然而,现有的评估方法和数据集主要集中在对象类型和引用表达的泛化能力测试上,缺乏对OVD模型在细粒度语义理解上的系统性评估。为此,西北工业大学、Linker Technology Research Co. Ltd和浙江大学滨江研究院的研究团队于2023年提出了OVDEval数据集,旨在通过9个子任务全面评估OVD模型在常识知识、属性理解、位置理解、对象关系理解等方面的能力。该数据集通过精心设计的高难度负样本,挑战模型对视觉和语言输入的真正理解,并提出了新的评估指标NMS-AP,以解决传统AP指标在细粒度标签数据集上的局限性。
当前挑战
OVDEval数据集的构建面临多重挑战。首先,如何系统性地评估OVD模型的泛化能力是一个关键问题。现有的数据集主要集中在常见对象的检测上,缺乏对模型在复杂语言提示下的细粒度语义理解能力的测试。其次,构建过程中遇到的挑战包括如何设计高难度的负样本,以确保模型在真实场景中的鲁棒性。此外,传统的AP指标在评估细粒度标签数据集时存在“膨胀AP问题”,即模型通过生成多个预测框来欺骗AP指标,导致评估结果失真。为此,OVDEval提出了NMS-AP指标,以更真实地评估OVD模型的性能。
常用场景
经典使用场景
OVDEval数据集的经典使用场景在于评估开放词汇检测(OVD)模型的泛化能力。该数据集通过9个子任务,涵盖了对象类型、属性理解、位置理解、对象关系等多个维度,旨在全面测试模型在复杂语言提示下的表现。通过引入常识知识、属性识别、位置定位等任务,OVDEval能够有效评估模型在多模态场景中的综合能力,尤其是在处理复杂语言描述时的表现。
实际应用
OVDEval数据集在实际应用中具有广泛的应用场景,特别是在需要复杂语言理解和多模态交互的领域。例如,在增强现实(AR)和机器人技术中,用户可以通过自然语言描述指定目标对象,OVD模型能够实时检测并定位这些对象。此外,在图像编辑、智能监控等领域,OVDEval的评估结果可以帮助开发更智能、更精准的检测系统,提升用户体验和系统的实用性。
衍生相关工作
OVDEval数据集的提出不仅为开放词汇检测(OVD)模型的评估提供了新的基准,还激发了大量相关研究。例如,基于OVDEval的评估结果,研究者们开始探索如何通过更好的预训练数据和训练目标来提升模型的泛化能力,特别是在处理硬负样本和复杂语言描述时的表现。此外,NMS-AP指标的提出也为其他多模态任务的评估提供了新的思路,推动了视觉-语言模型在更广泛任务中的应用和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录