ROVI

Name: ROVI
Creator: 浙江大学计算机辅助设计与图形学国家重点实验室
Published: 2025-08-02 02:19:51
License: 暂无描述

arXiv2025-08-02 更新2025-08-06 收录

下载链接：

https://github.com/CihangPeng/ROVI

下载链接

链接失效反馈

官方服务：

资源简介：

ROVI是一个高质量的合成数据集，用于实例-grounded文本到图像生成，由标记了100万精选网络图像创建。该数据集的核心创新是在预检测阶段采用了一种称为重新描述的策略，其中VLM（视觉语言模型）生成全面的视觉描述，然后由LLM（大型语言模型）处理以提取一个潜在的类别列表，供OVD（开放词汇检测器）检测。这种方法产生了一个与实例注释固有联系的全球提示，同时捕捉人类通常忽视的二级视觉元素。评估表明，ROVI在图像质量和分辨率方面超过了现有的检测数据集，同时包含两个数量级的开放词汇类别。为了展示目的，一个在ROVI上训练的文本到图像模型GLIGEN显著优于现有技术在实例接地精度、提示保真度和美学质量方面的性能。

ROVI is a high-quality synthetic dataset for instance-grounded text-to-image generation, constructed from 1 million curated and annotated web images. The core innovation of this dataset lies in adopting a strategy termed redescription during the pre-detection stage, where the Visual Language Model (VLM) generates comprehensive visual descriptions, which are then processed by the Large Language Model (LLM) to extract a latent category list for detection by the Open-Vocabulary Detector (OVD). This approach yields a global prompt inherently linked to instance annotations, while capturing secondary visual elements that humans often overlook. Evaluations demonstrate that ROVI outperforms existing detection datasets in terms of image quality and resolution, while encompassing two orders of magnitude more open-vocabulary categories. For demonstration purposes, the text-to-image model GLIGEN trained on ROVI significantly outperforms the state-of-the-art in instance grounding accuracy, prompt fidelity, and aesthetic quality.

提供机构：

浙江大学计算机辅助设计与图形学国家重点实验室

创建时间：

2025-08-02

原始信息汇总

ROVI数据集概述

基本信息

全称: ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation
类型: 高质量合成数据集
规模: 1M精选网络图像
特点: 包含全面的图像描述和边界框标注
创新点: 采用VLM-LLM重新标注策略
应用: 开放词汇实例接地的文本到图像生成
论文: ArXiv | ICCV 2025
数据集地址: ROVI Dataset on Hugging Face
演示: ROVI Dataset Example Viewer

数据集结构

训练集: 981,551个样本（键：0000001 - 0981551）
验证集: 30,153个样本（键：0981552 - 1011704）
格式: JSON

核心字段

url: 图像URL
source: 数据来源（带质量过滤）
- laion_aes: 来自LAION-5B，美学评分≥6.0
- coyo_6plus: 来自COYO-700M，美学评分≥6.0
- coyo_add: 来自COYO-700M，美学评分5.75-6.0
- laion_pop: 来自LAION-POP，多样性高
width, height: 图像尺寸（1024×1024至4096×6144，宽高比最大3:1）
box_num: 边界框数量
category_num: 类别数量

标注字段

web_caption: 原始标注
vlm_description: 使用InternVL-1.5生成的描述

标注信息

labels: 开放词汇对象标签（字符串）
bboxes: 边界框坐标（xyxy格式）
scores: 检测置信度分数
ovd_belongings: 检测来源
- gd: Grounding-DINO
- yw: YOLO-World
- ow: OWLv2
- od: OV-DINO

管道阶段

VLM描述: 使用InternVL-Chat-V1.5生成详细图像描述
LLM总结: 使用Llama3-8B-Instruct提取和精炼对象类别
多OVD检测: 使用多种开放词汇检测器检测对象
OVD重采样: 实施5阶段采样策略以减少冗余
VLM交叉检查: 使用Qwen2-VL-7B-Instruct验证无效的框-标签对

许可证

类型: CC BY 4.0

局限性

图像URL可能随时间变化而不可访问
自动生成的检测标注可能包含错误
语言模型可能存在不一致的单复数处理和措辞不当
视觉遮挡对象和非连续元素的边界框接地可能不太准确

引用

bibtex @misc{peng2025rovivlmllmrecaptioneddataset, title={ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation}, author={Cihang Peng and Qiming Hou and Zhong Ren and Kun Zhou}, year={2025}, eprint={2508.01008}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.01008} }

联系方式

邮箱: cihangpeng@zju.edu.cn

搜集汇总

数据集介绍

构建方式

ROVI数据集的构建采用了创新的VLM-LLM重标注策略，通过视觉语言模型（VLM）生成全面的图像描述，再经由大型语言模型（LLM）提取潜在的开放词汇类别列表。该方法结合了多开放词汇检测器（OVD）的使用，确保了实例标注的全局性和细节捕捉能力。数据集基于100万张精选网络图像，经过严格的分辨率（≥1024×1024）和美学评分（≥5.75）筛选，并通过pHash去重处理，最终形成高质量的图像-文本对。

特点

ROVI数据集以其开放词汇特性著称，涵盖超过140万种独特类别，远超传统检测数据集（如COCO的80类）。其核心优势在于：1）通过VLM-LLM流程生成富含属性的实例标签（如“黑色灯罩台灯”）；2）每图像平均包含12.51个类别和24.21个标注框，支持复杂场景理解；3）高分辨率（平均2102×1488像素）与美学质量（平均评分6.0）；4）保留原始网页标题与VLM描述的互补信息，增强语义多样性。

使用方法

该数据集专为实例接地的文本到图像生成任务设计，典型应用包括：1）训练如GLIGEN等模型时，将边界框-标签对与全局提示结合输入；2）利用开放词汇标注增强模型对长尾概念的生成能力；3）通过提供的VLM/LLM中间结果复现标注流程。用户可通过GitHub获取完整标注文件、图像URL及分步代码，所有流程均基于开源模型实现离线可复现性。

背景与挑战

背景概述

ROVI（Recaptioned Open-Vocabulary Instances）是由浙江大学CAD&CG国家重点实验室的Cihang Peng、Qiming Hou、Zhong Ren和Kun Zhou团队于2025年提出的高质量合成数据集，专注于开放词汇实例接地的文本到图像生成任务。该数据集通过创新的VLM-LLM重新标注策略，对100万张精选网络图像进行标注，旨在解决现有检测数据集（如COCO、LVIS）在图像质量、标注细节和词汇多样性方面的局限性。ROVI的核心贡献在于其预检测阶段的重新标注方法，利用视觉语言模型（VLM）生成全面的视觉描述，再通过大语言模型（LLM）提取潜在类别列表供开放词汇检测器（OVD）使用，从而捕获人类通常忽略的次要视觉元素。ROVI在图像质量、分辨率和类别数量上显著优于现有数据集，为文本到图像生成模型提供了更丰富的训练数据，推动了实例接地任务的表达能力。

当前挑战

ROVI数据集面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，ROVI旨在解决开放词汇实例接地的文本到图像生成问题，但现有方法受限于标注数据的稀疏性和词汇局限性，导致生成图像中实例属性（如颜色、纹理）和组合细节的准确性不足。例如，传统数据集（如COCO）的标注缺乏对次要对象的描述，且词汇封闭，限制了生成模型的细粒度控制能力。在构建过程中，ROVI面临多重技术挑战：1）预检测阶段需平衡VLM生成的描述细节与LLM提取的类别简洁性，避免信息冗余或丢失；2）多OVD融合时，检测结果的冗余和冲突需通过复杂的重采样策略解决；3）跨模态验证（如VLM对检测框的交叉检查）计算成本高昂，需优化效率。此外，数据集中约3.3%的检测框存在错误（如误检部分遮挡对象或歧义短语），且语言模型生成的类别可能存在不合理组合（如“blue dressed woman”），需通过后处理缓解。

常用场景

经典使用场景

ROVI数据集在开放词汇实例接地的文本到图像生成任务中展现出卓越的应用价值。其核心创新在于通过视觉语言模型（VLM）与大型语言模型（LLM）的协同工作，对原始图像进行重新标注，生成包含丰富视觉元素和实例关系的全局提示。这种策略显著提升了生成模型的实例接地能力，使其能够更准确地捕捉和生成图像中的细节元素，如特定颜色、纹理和空间布局。

实际应用

在实际应用中，ROVI数据集为需要精确空间控制的图像生成场景提供了强大支持。例如，在室内设计、广告创意和游戏资产生成等领域，用户可以通过指定对象的位置和属性来获得高度可控的生成结果。此外，其高分辨率和美学质量的图像也为专业级视觉内容的创作奠定了基础。

衍生相关工作

ROVI数据集推动了多项相关研究的发展，特别是在实例接地的文本到图像生成领域。基于ROVI训练的GLIGEN模型在实例接地准确性和提示保真度上显著优于现有方法。此外，该数据集的方法论也为MIGC、InstanceDiffusion等后续工作提供了重要参考，促进了多检测器融合、属性绑定等技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集