Roboflow 100-VL

github2025-03-20 更新2025-03-21 收录

下载链接：

https://github.com/roboflow/rf100-vl

下载链接

链接失效反馈

官方服务：

资源简介：

RF100-VL是一个大规模的多模态数据集集合，包含100个数据集，涵盖了不常见于VLM预训练中的多样化概念。该基准包括来自七个领域的图像及其相应的注释：动植物、体育、工业、文档处理、实验室成像、航空影像以及与各种用例相关的杂项数据集。

RF100-VL is a large-scale multimodal dataset collection that comprises 100 datasets, covering diverse concepts rarely encountered in VLM pre-training. This benchmark includes images and their corresponding annotations from seven domains: fauna and flora, sports, industry, document processing, laboratory imaging, aerial imagery, and miscellaneous datasets related to various use cases.

创建时间：

2025-03-17

原始信息汇总

Roboflow 100-VL 数据集概述

数据集简介

名称: Roboflow 100-VL (RF100-VL)
类型: 多模态目标检测基准数据集
领域: 包含七个领域的图像和标注：动植物、体育、工业、文档处理、实验室成像、航拍图像以及与常见检测模型用例相关的其他数据集
用途: 用于基准测试全监督、半监督和少样本目标检测模型，以及具有定位能力的视觉语言模型（VLM）

数据集下载

安装: 使用 pip install rf100vl 安装 rf100vl 包
下载: 需要 Roboflow Universe 的 API 密钥
- 导出 API 密钥：export ROBOFLOW_API_KEY=YOUR_KEY
下载函数:
- get_rf100vl_fsod_projects: 获取 RF100-VL-FSOD 数据集
- get_rf100vl_projects: 获取 RF100-VL 数据集
- get_rf20vl_fsod_projects: 获取 RF20-VL-FSOD 数据集
- get_rf20vl_full_projects: 获取 RF20-VL 数据集
- download_rf100vl_fsod: 下载 RF100-VL-FSOD 数据集
- download_rf100vl: 下载 RF100-VL 数据集
- download_rf20vl_fsod: 下载 RF20-VL-FSOD 数据集
- download_rf20vl_full: 下载 RF20-VL 数据集

数据集格式

格式: COCO JSON 格式
存储结构: 每个数据集下载后存储在其独立的子文件夹中

CVPR 2025 研讨会：基于注释指令的少样本目标检测挑战

组织者: Anish Madan, Neehar Peri, Deva Ramanan, Shu Kong
目标: 开发基于少量注释的鲁棒目标检测器
数据集: 使用 nuImages 数据集进行少样本目标检测
评估指标: AP、AP50、AP75、AR
提交格式: COCO 兼容的 JSON 文件

数据集详情

nuImages 数据集: 包含 93,000 张图像，扩展自 nuScenes 3D 检测数据集，涵盖多种驾驶场景

官方基线

预训练模型: Detic，基于 ImageNet21-K、COCO Captions 和 LVIS 预训练
微调: 使用 nuImages 的 10 个样本进行微调

时间线

提交开放: 2025 年 3 月 1 日
提交截止: 2025 年 5 月 10 日
研讨会: 前 3 名参与者将被邀请在研讨会上发言

参考文献

Zhou et. al. "Detecting Twenty-Thousand Classes Using Image-Level Supervision". ECCV 2022
Caesar et. al. "nuScenes: A Multi-Modal Dataset for Autonomous Driving." CVPR 2020

许可

许可证: Apache 2.0 许可证

搜集汇总

数据集介绍

构建方式

Roboflow 100-VL数据集是一个多模态对象检测基准，涵盖了七个不同领域的图像及其注释，包括动植物、体育、工业、文档处理、实验室成像、航空影像以及其他常见检测模型应用场景。该数据集的构建基于大规模数据收集与标注，旨在为视觉语言模型（VLM）提供多样化的训练和评估环境。通过整合多个领域的图像数据，Roboflow 100-VL不仅扩展了传统数据集的范围，还为模型的多领域适应能力提供了有力支持。

特点

Roboflow 100-VL数据集的核心特点在于其多领域覆盖与多样化概念。该数据集包含100个多模态数据集，涵盖了从自然场景到工业应用的广泛领域，提供了丰富的图像和注释信息。此外，数据集特别关注那些在VLM预训练中不常见的概念，从而为模型提供了更具挑战性的评估环境。其结构化的数据组织形式和COCO JSON格式的兼容性，使得数据的使用和扩展更加便捷。

使用方法

使用Roboflow 100-VL数据集时，用户首先需要通过pip安装`rf100vl`包，并配置Roboflow Universe的API密钥。数据集提供了多种辅助函数，用于下载完整数据集或其子集。用户可以通过调用`download_rf100vl`等函数，将数据集以COCO JSON格式下载到本地。每个数据集对象均包含独立的下载方法，便于用户根据需求灵活选择。该数据集适用于全监督、半监督和少样本对象检测模型的基准测试，尤其适合用于评估具有定位能力的视觉语言模型。

背景与挑战

背景概述

Roboflow 100-VL数据集是由Roboflow与卡内基梅隆大学的研究团队于2025年推出的一个多模态目标检测基准数据集，旨在为视觉-语言模型（VLM）提供多样化的多领域目标检测任务。该数据集包含了来自七个不同领域的100个数据集，涵盖了动植物、体育、工业、文档处理、实验室成像、航空影像等多个应用场景。通过提供丰富的图像和标注信息，Roboflow 100-VL为全监督、半监督和少样本目标检测模型以及具有定位能力的视觉-语言模型提供了全面的评估基准。该数据集的推出不仅填补了现有基准数据集在多领域任务上的空白，还为视觉-语言模型的进一步发展提供了重要的数据支持。

当前挑战

Roboflow 100-VL数据集在构建和应用过程中面临多重挑战。首先，数据集需要涵盖多样化的领域和应用场景，这对数据收集和标注的广度和深度提出了极高要求。其次，视觉-语言模型在目标检测任务中的表现依赖于高质量的标注数据，而多模态数据的对齐与一致性处理成为技术难点。此外，少样本目标检测（FSOD）任务要求模型在极少量标注数据下仍能保持高精度，这对模型的泛化能力和鲁棒性提出了严峻考验。最后，数据集的构建还需考虑实际应用中的复杂环境，如不同光照条件、天气变化等，这对数据集的多样性和代表性提出了更高要求。

常用场景

经典使用场景

Roboflow 100-VL数据集广泛应用于多领域目标检测任务，特别是在视觉-语言模型（VLM）的基准测试中。该数据集涵盖了七个不同领域的图像和注释，包括动植物、体育、工业、文档处理、实验室成像、航空影像等，为研究者提供了一个多样化的测试平台。通过该数据集，研究者可以评估全监督、半监督和少样本目标检测模型的性能，尤其是在视觉-语言模型中的定位能力。

衍生相关工作

Roboflow 100-VL数据集催生了一系列相关研究工作，特别是在少样本目标检测（FSOD）领域。基于该数据集，研究者提出了新的基准测试协议，允许模型在外部数据集上进行预训练，并在少量标注数据上进行微调。这一方法显著提高了模型在少样本情况下的检测性能，推动了少样本学习技术的发展。此外，该数据集还被用于评估和改进视觉-语言模型的定位能力，为多模态学习领域的研究提供了重要支持。

数据集最近研究