Roboflow100-VL

Name: Roboflow100-VL
Creator: 卡内基梅隆大学
Published: 2025-05-27 09:24:29
License: 暂无描述

arXiv2025-05-27 更新2025-11-28 收录

下载链接：

https://universe.roboflow.com/rf100-vl/

下载链接

链接失效反馈

官方服务：

资源简介：

Roboflow100-VL 是一个大规模的多模态目标检测数据集，包含 100 个不同领域的多模态对象检测数据集，旨在评估视觉语言模型 (VLM) 在互联网规模预训练中不常见的概念上的性能。该数据集由 Roboflow Universe 平台提供，包含 564 个类别和 164,149 张图像，超过 1.3 百万个标注。Roboflow100-VL 的创建旨在解决 VLM 在新概念上的泛化问题，通过提供包含少量视觉示例和丰富文本描述的标注指令来实现。该数据集适用于零样本、少样本、半监督和全监督学习场景，旨在推动 VLM 在真实世界应用中的发展。

Roboflow100-VL is a large-scale multimodal object detection dataset composed of 100 multimodal object detection datasets across diverse domains. It is designed to evaluate the performance of Vision-Language Models (VLMs) on concepts that are rare in internet-scale pre-training datasets. Hosted on the Roboflow Universe platform, this dataset contains 564 categories, 164,149 images, and over 1.3 million annotations. Developed to address the generalization challenge of VLMs when facing novel concepts, Roboflow100-VL provides annotation instructions with a small number of visual examples and rich textual descriptions. This dataset supports zero-shot, few-shot, semi-supervised, and fully-supervised learning scenarios, and aims to advance the real-world application and development of VLMs.

提供机构：

卡内基梅隆大学

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

在视觉语言模型蓬勃发展的背景下，Roboflow100-VL旨在评估模型对互联网预训练中罕见概念的泛化能力。该数据集从Roboflow Universe社区平台中精心筛选了100个高质量、多模态的目标检测数据集，涵盖航空影像、文档、动植物、工业、医疗、体育及其他七大领域。构建过程强调选择包含多个对象、类别名称语义模糊（如科学术语、首字母缩写、上下文依赖名称）的数据集，以确保模型无法仅凭类别名称解决任务。团队投入了1693小时进行人工标注验证与精修，并为每个数据集生成了包含少量视觉示例和丰富文本描述的多模态标注指令，这些指令由GPT-4o初步生成并经过人工核查与完善，以提供精确的类别定义和上下文信息。

特点

Roboflow100-VL的核心特点在于其挑战性的分布外泛化评估。数据集包含564个类别、超过16.4万张图像和135万次标注，其中大量概念如医学影像中的病理特征、工业缺陷检测或特定材料属性，在常见的互联网规模预训练数据中极为罕见。数据集类别具有高度的语义模糊性和领域特异性，例如使用“肝纤维化”、“DIP关节”等专业术语，迫使模型必须依赖多模态上下文信息而非单纯类别名称进行理解。此外，数据集提供了结构化的多模态标注指令，模拟了人类标注者接收的指导信息，为研究小样本概念对齐提供了独特的多模态学习场景。其规模约为COCO数据集的一半，兼顾了多样性与学术研究的可行性。

使用方法

Roboflow100-VL设计用于全面评估视觉语言模型在不同数据机制下的性能。研究者和开发者可在零样本、小样本、半监督和全监督四种设定下使用该基准。在零样本设定中，模型仅使用类别名称或生成的标注指令进行提示以检测目标。小样本设定则允许模型利用每个类别提供的少量视觉示例（如10个样本）及其对应的文本描述进行上下文学习或梯度微调。数据集支持对开放词汇检测器（如GroundingDINO、Detic）和多模态大语言模型（如Qwen2.5-VL、Gemini）进行横向比较。评估时，每个数据集独立进行，使用标准的COCO评估协议（AP指标），并确保所有数据机制在同一全标注测试集上进行公平比较，以深入揭示模型在适应新概念和跨域任务上的潜力与局限。

背景与挑战

背景概述

随着视觉语言模型在互联网规模数据上的训练取得显著进展，其在常见物体上的零样本检测性能已相当出色。然而，这些模型在面对分布外类别、任务及成像模态时仍存在泛化不足的问题。Roboflow100-VL数据集由Roboflow与卡内基梅隆大学的研究团队于近期共同构建，旨在通过整合多模态标注指令，推动视觉语言模型在罕见概念上的少样本对齐能力。该数据集汇集了来自Roboflow Universe平台的100个多领域目标检测数据集，涵盖医疗影像、工业检测、农业生态等非典型互联网预训练场景，总计包含超过16万张图像和130万条标注，涉及564个类别。其核心研究问题聚焦于评估并提升视觉语言模型在分布外任务中的泛化性能，通过提供视觉示例与丰富文本描述，模拟人类标注者的概念对齐过程，为少样本目标检测领域设立了新的基准。

当前挑战

Roboflow100-VL数据集所应对的领域挑战在于解决视觉语言模型在分布外目标检测任务中的泛化瓶颈。现有模型在医疗影像等专业领域表现欠佳，零样本准确率甚至低于2%，凸显了少样本概念对齐的必要性。构建过程中的挑战主要体现在数据质量与标注一致性上：数据集源自社区驱动的开放平台，需对大量众包标注进行人工验证与修正，耗时超过1600小时；同时，类别名称常包含科学术语、缩写或语境依赖词汇，增加了语义模糊性。此外，生成多模态标注指令时，自动化方法易忽略视觉细节，需结合人工审核以确保信息准确性与完整性，这为大规模高质量数据集的构建带来了显著复杂性。

常用场景

经典使用场景

在视觉语言模型研究领域，Roboflow100-VL数据集最经典的使用场景是作为评估模型在分布外概念上泛化能力的基准。该数据集精心挑选了100个涵盖航空影像、医疗图像、工业检测、文档分析、动植物识别、体育动作及其他特殊领域的多模态目标检测数据集，这些数据中的概念通常未出现在互联网规模预训练数据中。研究者利用该数据集在零样本、少样本、半监督和全监督等多种数据范式下，系统评估如GroundingDINO、Qwen2.5-VL等前沿模型，通过对比其在不同领域和任务上的性能，揭示模型在真实、复杂场景下的局限性。

衍生相关工作

围绕Roboflow100-VL数据集，已衍生出一系列重要的相关研究工作。最直接的是其催生的CVPR 2025基础少样本目标检测挑战赛，吸引了众多团队参与，获胜方案BEATON等显著超越了基线性能，推动了少样本对齐策略的创新。该数据集也促进了对于多模态标注指令有效性的深入分析，以及针对通用大模型与专用检测器在少样本场景下性能差异的比较研究。此外，基于该基准的评估结论，引发了关于模型架构（如任务专用型与通用型）、训练策略（如联邦损失微调、上下文学习）以及评估协议（如单类与多类提示）的广泛讨论，为后续视觉语言模型的改进指明了方向。

数据集最近研究