five

Universal Video Retrieval Dataset (UVRD)

收藏
arXiv2025-10-31 更新2025-11-04 收录
下载链接:
https://gzn00417.github.io/GVE/
下载链接
链接失效反馈
官方服务:
资源简介:
UVRD 是一个包含超过 155 万对视频检索数据的高质量数据集,涵盖了丰富的时空细节、多样的描述风格和独特的任务格式。该数据集通过 V-SynFlow 工作流生成,旨在为训练通用的视频嵌入模型提供高质量的训练资源。

UVRD is a high-quality dataset containing over 1.55 million video retrieval data pairs, which covers rich spatiotemporal details, diverse description styles and unique task formats. Generated via the V-SynFlow workflow, this dataset aims to provide high-quality training resources for training general-purpose video embedding models.
提供机构:
香港科技大学 (HKUST) 和 阿里巴巴集团 (Alibaba Group)
创建时间:
2025-10-31
搜集汇总
数据集介绍
main_image_url
构建方式
在视频检索领域面临数据质量与多样性挑战的背景下,Universal Video Retrieval Dataset (UVRD) 通过创新的V-SynFlow多阶段合成流程构建而成。该流程首先对原始网络视频进行多粒度质量控制,包括注释校正、跨模态一致性过滤和时序动态筛选,形成高保真资产池;随后利用多模态大语言模型作为条件生成引擎,通过空间-时间信息配置文件生成多维度的增强描述;最终通过模态任务扩展机制,将基础文本-视频对齐任务转化为包含文本-图像组合检索、文本-视频组合检索等复杂任务的统一训练语料库,最终形成包含155万对高质量样本的跨域多任务数据集。
特点
UVRD数据集在视频检索领域展现出显著的多维特征优势。其核心特征体现在任务格式的全面覆盖,不仅支持传统文本到视频检索,更突破性地整合了文本-图像组合查询、文本-视频组合查询以及纯视觉查询等新兴范式;在语义粒度上实现了从粗粒度整体描述到细粒度空间关系、时序动态的完整谱系,同时包含部分相关匹配和长上下文理解等关键场景。数据分布经过精心设计,通过可控合成流程确保了空间-时间细节的丰富性、描述风格的多样性以及任务格式的差异性,为训练通用视频嵌入模型提供了前所未有的语义覆盖广度。
使用方法
该数据集在通用视频检索研究中具有明确的实践路径。研究人员可通过其提供的多任务训练实例,系统性地构建和评估视频嵌入模型的跨域泛化能力。具体而言,数据集支持以对比学习为核心范式的训练流程,其中信息NCE损失函数可对称地应用于所有预定任务;通过模态金字塔课程学习策略,模型能够从原子级任务逐步过渡到复合任务,实现渐进式知识获取。在评估阶段,数据集与通用视频检索基准(UVRB)形成完整闭环,支持对模型在16个测试数据集上的零样本泛化能力进行多维诊断,为视频检索从专业化向通用化转型提供了标准化实验框架。
背景与挑战
背景概述
通用视频检索数据集(UVRD)由阿里巴巴集团通义实验室与香港科技大学(广州)AI学域于2025年联合构建,旨在突破传统视频检索模型的语义局限。该数据集源于对现有检索范式结构性失调的深刻洞察——狭窄的评估基准导致训练数据单一化,抑制了模型在多维度任务上的泛化能力。研究团队通过设计评估-数据-建模的协同框架,构建了包含155万高质量视频-文本对的合成数据集,覆盖粗粒度语义理解、细粒度时空推理、长上下文建模及多模态组合查询等复杂场景,为视频嵌入模型的通用性评估与优化提供了关键基础设施。
当前挑战
在领域问题层面,UVRD致力于解决视频检索模型在跨任务、跨域泛化中的核心挑战:传统模型难以兼顾细粒度时空关系理解与长视频上下文建模,且对文本-图像组合查询等新兴检索范式支持不足。在构建过程中,面临三重技术挑战:其一需建立维度化诊断评估体系,量化模型在16种异构任务中的能力相关性;其二需通过可控合成流程解决高质量多任务数据稀缺问题,在保证语义一致性的同时实现时空细节增强;其三需设计模态金字塔课程学习机制,利用任务间隐式层次依赖实现渐进式知识迁移,避免异构数据混合训练导致的优化冲突。
常用场景
经典使用场景
在视频检索研究领域,Universal Video Retrieval Dataset (UVRD) 作为首个系统覆盖多维度检索任务的训练资源,其经典应用场景体现在为通用视频嵌入模型提供跨域、多粒度的监督信号。该数据集通过精心设计的合成流程,生成了155万对高质量文本-视频样本,涵盖从粗粒度语义匹配到细粒度时空定位的完整任务谱系。研究者可借助其丰富的标注体系,训练单一模型同时处理文本查询、图文组合查询、纯视觉查询等复杂场景,突破了传统检索模型在任务泛化性上的瓶颈。
衍生相关工作
基于UVRD数据集衍生出了一系列创新性研究工作。Modality Pyramid课程学习框架通过建模任务间依赖关系,实现了从基础感知到高级推理的渐进式知识获取。通用视频嵌入器GVE在多个基准测试中展现出卓越的零样本泛化能力,成为后续研究的基准模型。诊断分析工作揭示了空间与时间表征解耦现象,启发了新型时空融合架构的探索。部分相关检索场景的发现催生了针对模糊查询的专门优化方法,这些衍生工作共同推动了通用视频检索研究范式的演进。
数据集最近研究
最新研究方向
在视频检索领域,Universal Video Retrieval Dataset (UVRD) 的推出标志着对通用视频嵌入模型研究的重大突破。该数据集通过合成超过155万高质量多模态对,覆盖粗粒度、细粒度空间与时间、长上下文及组合查询等复杂场景,有效解决了传统数据集语义分布狭窄、任务单一的问题。前沿研究聚焦于构建诊断性评估框架Universal Video Retrieval Benchmark (UVRB),系统量化模型在16个跨域任务中的泛化能力,揭示传统基准与真实泛化性能的低相关性。同时,模态金字塔课程学习策略通过层次化任务调度显式建模知识依赖,推动多模态大语言模型在零样本场景下实现时空解耦表示与部分相关检索等关键能力的突破,为构建真正通用的视频检索系统提供了数据、评估与算法的协同进化路径。
相关研究论文
  • 1
    通过香港科技大学 (HKUST) 和 阿里巴巴集团 (Alibaba Group) · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作