ROVI

Hugging Face2025-08-02 更新2025-08-03 收录

下载链接：

https://huggingface.co/datasets/CHang/ROVI

下载链接

链接失效反馈

官方服务：

资源简介：

ROVI是一个包含1M张精心挑选网络图片的数据集，每张图片都配备了详尽的描述和边界框注释。它利用VLM-LLM重描述策略，提供了比现有检测中心数据集更优的图像描述、质量和分辨率，并具有开放词汇表特性，覆盖了更多的类别。数据集以JSON格式提供，分为训练集和验证集，包含丰富的字段信息，如图片URL、描述、尺寸、边界框和类别数量等，以及开放词汇对象标签和详细的注释信息。

创建时间：

2025-07-30

搜集汇总

数据集介绍

构建方式

在计算机视觉与多模态学习领域，ROVI数据集通过创新的VLM-LLM重标注策略构建而成。其流程始于从LAION-5B和COYO-700M等高质量源数据中筛选美学评分≥6.0的百万级网络图像，随后采用InternVL-1.5生成精细化视觉描述，再通过Llama3-8B进行语义解构与去冗余处理。基于多源开放词汇检测器（包括Grounding-DINO、YOLO-World等）的协同检测，最终经由Qwen2-VL进行交叉验证，确保标注的准确性与开放性。

特点

该数据集显著特点在于其开放词汇特性与高分辨率图像资源，涵盖超过百万张分辨率介于1024×1024至4096×6144之间的视觉样本。每张图像均配备细粒度边界框标注与多源描述文本，支持超百万类别的高密度实例标注。其标注体系融合了原始网页描述与VLM生成描述，既保留语义丰富性，又通过自动化流程保证了标注的一致性与可扩展性，为开放词汇目标检测与生成任务提供了前所未有的数据支撑。

使用方法

研究者可通过HuggingFace平台获取数据集的JSON格式文件，其中包含训练集与验证集划分。每一样本均提供图像URL、原始描述、VLM生成描述、边界框坐标及类别标签等结构化字段。使用时可依据具体任务需求，结合CLIP分词器处理文本信息，或通过非极大值抑制（NMS）等后处理技术优化重叠检测框。该数据集特别适用于训练实例 grounded 文本生成模型、开放词汇检测器及多模态理解系统，其高分辨率特性也为生成模型的质量提升提供了坚实基础。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，开放词汇实例接地文本到图像生成成为计算机视觉领域的前沿研究方向。ROVI数据集由浙江大学研究团队于2025年创建，旨在通过创新的视觉语言模型与大语言模型协同重标注策略，构建高质量合成数据集。该数据集包含百万级精选网络图像，配备全面图像描述与边界框标注，其标注质量、图像分辨率和类别覆盖范围均超越现有检测中心数据集两个数量级，为开放词汇目标检测与生成模型训练提供了重要基础资源，相关研究成果已被ICCV 2025接收。

当前挑战

开放词汇实例接地文本到图像生成面临标注一致性与语义粒度控制的根本性挑战，需要精确协调视觉元素与文本描述的空间对应关系。构建过程中需克服多源检测器输出融合的技术难题，包括边界框重叠处理、置信度校准以及跨模型偏差消除。数据集采用五阶段流水线处理策略，通过VLM-LLM重标注机制缓解源数据集文本偏差，但依然面临语言模型 artefacts 残留和遮挡目标检测精度受限等固有局限，需通过后处理技术优化标注质量。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，ROVI数据集通过其百万级高分辨率图像与精细化边界框标注，为开放词汇实例 grounding 任务提供了基准支持。该数据集最典型的应用场景在于训练文本到图像生成模型，特别是在需要精确控制生成对象空间位置的场景中，其VLM-LLM重标注策略生成的丰富描述能够显著提升模型对复杂视觉元素的理解与生成一致性。

解决学术问题

ROVI数据集有效解决了开放词汇目标检测与文本到图像生成中的语义对齐难题。通过融合多源开放词汇检测器与视觉语言模型的交叉验证机制，该数据集显著降低了传统方法对封闭词汇集的依赖，突破了标注数据稀缺性的瓶颈，为细粒度视觉语言理解研究提供了大规模高质量数据支撑，推动了多模态表征学习的发展。

衍生相关工作

ROVI数据集催生了多个重要研究方向，包括基于GLIGEN架构的实例接地文本到图像生成模型的优化工作，以及多检测器融合策略的改进研究。其创新的VLM-LLM重标注流程为后续数据集构建提供了范式参考，激发了开放词汇视觉定位、多模态推理和生成模型可控性等领域的系列创新成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集