Universal Video Retrieval Dataset (UVRD)

arXiv2025-10-31 更新2025-11-04 收录

下载链接：

https://gzn00417.github.io/GVE/

下载链接

链接失效反馈

官方服务：

资源简介：

UVRD 是一个包含超过 155 万对视频检索数据的高质量数据集，涵盖了丰富的时空细节、多样的描述风格和独特的任务格式。该数据集通过 V-SynFlow 工作流生成，旨在为训练通用的视频嵌入模型提供高质量的训练资源。

UVRD is a high-quality dataset containing over 1.55 million video retrieval data pairs, which covers rich spatiotemporal details, diverse description styles and unique task formats. Generated via the V-SynFlow workflow, this dataset aims to provide high-quality training resources for training general-purpose video embedding models.

提供机构：

香港科技大学 (HKUST) 和阿里巴巴集团 (Alibaba Group)

创建时间：

2025-10-31

搜集汇总

数据集介绍

构建方式

在视频检索领域面临数据质量与多样性挑战的背景下，Universal Video Retrieval Dataset (UVRD) 通过创新的V-SynFlow多阶段合成流程构建而成。该流程首先对原始网络视频进行多粒度质量控制，包括注释校正、跨模态一致性过滤和时序动态筛选，形成高保真资产池；随后利用多模态大语言模型作为条件生成引擎，通过空间-时间信息配置文件生成多维度的增强描述；最终通过模态任务扩展机制，将基础文本-视频对齐任务转化为包含文本-图像组合检索、文本-视频组合检索等复杂任务的统一训练语料库，最终形成包含155万对高质量样本的跨域多任务数据集。

特点

UVRD数据集在视频检索领域展现出显著的多维特征优势。其核心特征体现在任务格式的全面覆盖，不仅支持传统文本到视频检索，更突破性地整合了文本-图像组合查询、文本-视频组合查询以及纯视觉查询等新兴范式；在语义粒度上实现了从粗粒度整体描述到细粒度空间关系、时序动态的完整谱系，同时包含部分相关匹配和长上下文理解等关键场景。数据分布经过精心设计，通过可控合成流程确保了空间-时间细节的丰富性、描述风格的多样性以及任务格式的差异性，为训练通用视频嵌入模型提供了前所未有的语义覆盖广度。

使用方法

该数据集在通用视频检索研究中具有明确的实践路径。研究人员可通过其提供的多任务训练实例，系统性地构建和评估视频嵌入模型的跨域泛化能力。具体而言，数据集支持以对比学习为核心范式的训练流程，其中信息NCE损失函数可对称地应用于所有预定任务；通过模态金字塔课程学习策略，模型能够从原子级任务逐步过渡到复合任务，实现渐进式知识获取。在评估阶段，数据集与通用视频检索基准(UVRB)形成完整闭环，支持对模型在16个测试数据集上的零样本泛化能力进行多维诊断，为视频检索从专业化向通用化转型提供了标准化实验框架。

背景与挑战

背景概述

通用视频检索数据集（UVRD）由阿里巴巴集团通义实验室与香港科技大学（广州）AI学域于2025年联合构建，旨在突破传统视频检索模型的语义局限。该数据集源于对现有检索范式结构性失调的深刻洞察——狭窄的评估基准导致训练数据单一化，抑制了模型在多维度任务上的泛化能力。研究团队通过设计评估-数据-建模的协同框架，构建了包含155万高质量视频-文本对的合成数据集，覆盖粗粒度语义理解、细粒度时空推理、长上下文建模及多模态组合查询等复杂场景，为视频嵌入模型的通用性评估与优化提供了关键基础设施。

当前挑战

在领域问题层面，UVRD致力于解决视频检索模型在跨任务、跨域泛化中的核心挑战：传统模型难以兼顾细粒度时空关系理解与长视频上下文建模，且对文本-图像组合查询等新兴检索范式支持不足。在构建过程中，面临三重技术挑战：其一需建立维度化诊断评估体系，量化模型在16种异构任务中的能力相关性；其二需通过可控合成流程解决高质量多任务数据稀缺问题，在保证语义一致性的同时实现时空细节增强；其三需设计模态金字塔课程学习机制，利用任务间隐式层次依赖实现渐进式知识迁移，避免异构数据混合训练导致的优化冲突。

常用场景

经典使用场景

在视频检索研究领域，Universal Video Retrieval Dataset (UVRD) 作为首个系统覆盖多维度检索任务的训练资源，其经典应用场景体现在为通用视频嵌入模型提供跨域、多粒度的监督信号。该数据集通过精心设计的合成流程，生成了155万对高质量文本-视频样本，涵盖从粗粒度语义匹配到细粒度时空定位的完整任务谱系。研究者可借助其丰富的标注体系，训练单一模型同时处理文本查询、图文组合查询、纯视觉查询等复杂场景，突破了传统检索模型在任务泛化性上的瓶颈。

衍生相关工作

基于UVRD数据集衍生出了一系列创新性研究工作。Modality Pyramid课程学习框架通过建模任务间依赖关系，实现了从基础感知到高级推理的渐进式知识获取。通用视频嵌入器GVE在多个基准测试中展现出卓越的零样本泛化能力，成为后续研究的基准模型。诊断分析工作揭示了空间与时间表征解耦现象，启发了新型时空融合架构的探索。部分相关检索场景的发现催生了针对模糊查询的专门优化方法，这些衍生工作共同推动了通用视频检索研究范式的演进。

数据集最近研究