LoVR

Name: LoVR
Creator: 华东师范大学、北京大学、北京航空航天大学、北京理工大学、华中科技大学
Published: 2025-05-20 12:49:09
License: 暂无描述

arXiv2025-05-20 更新2025-05-22 收录

下载链接：

https://github.com/TechNomad-ds/LoVR-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

LoVR是一个专为长视频文本检索设计的基准数据集，由华东师范大学、北京大学等研究机构创建。数据集包含467个完整长视频和超过40,804个细粒度剪辑，每个视频和剪辑都配有高质量的文本描述。LoVR旨在支持全视频和细粒度剪辑级别的检索，并克服了现有基准数据集在视频时长、字幕质量和标注粒度方面的限制。数据集的创建过程包括视频选择、剪辑分割、字幕生成和全视频字幕构建等步骤。LoVR的应用领域为视频理解和检索，旨在解决现有方法在处理长视频时的局限性。

LoVR is a benchmark dataset specifically designed for long-video text retrieval, developed by research institutions including East China Normal University, Peking University, and other relevant organizations. The dataset comprises 467 full-length long videos and over 40,804 fine-grained clips, with each video and clip accompanied by high-quality textual descriptions. LoVR is intended to support retrieval tasks at both the full-video and fine-grained clip levels, and addresses the limitations of existing benchmark datasets regarding video duration, caption quality, and annotation granularity. The dataset creation workflow includes steps such as video selection, clip segmentation, caption generation, and full-video caption construction. The application domains of LoVR cover video understanding and retrieval, and it aims to mitigate the limitations of existing methods in long-video processing.

提供机构：

华东师范大学、北京大学、北京航空航天大学、北京理工大学、华中科技大学

创建时间：

2025-05-20

搜集汇总

数据集介绍

构建方式

LoVR数据集的构建采用了多阶段流水线方法，首先通过视觉变化检测算法将长视频分割为具有高动态性的语义片段，随后采用融合视觉语言模型自动生成与人工验证的混合标注策略。具体而言，利用Qwen2.5-VL等先进模型生成初始描述，通过EVQAScore模型进行质量评分筛选，对低质量样本采用动态优化机制进行多轮迭代修正，最终通过语义融合技术将片段级描述聚合成保持上下文连贯性的完整视频标注。

特点

该数据集包含467段平均时长达26分钟的长视频及40,804个精细标注的片段，其核心特征体现在三方面：时空维度上覆盖从15秒到1小时的多粒度视频内容；标注体系同时包含片段级场景描述与视频级主题摘要的双层语义结构；采用混合标注策略使平均标注质量评分达4.3/5，较传统基准提升78%的优质标注比例。特别值得注意的是，每个视频平均生成106,075词元的描述文本，较MSR-VTT等传统数据集提升三个数量级。

使用方法

使用该数据集时，建议采用分层检索策略：对于视频级检索任务，可利用语义融合生成的全局描述进行粗粒度匹配；针对片段级检索则需结合视觉动态特征与局部描述进行细粒度对齐。评估时应关注模型在长时序依赖建模、跨模态主题理解等方面的表现，基准测试表明当前最优模型在Recall@1指标上仅达56.5%。数据集已按7:3比例划分训练测试集，测试集包含100段完整视频及其所有关联片段以确保评估一致性。

背景与挑战

背景概述

LoVR（Long Video Retrieval）数据集由华东师范大学、北京大学等机构的研究团队于2025年提出，旨在解决多模态环境下长视频检索的核心挑战。该数据集包含467个长视频和40,804个精细标注的片段，平均视频时长达到1560秒，显著超越MSR-VTT等传统短视频数据集。其创新性体现在采用视觉语言模型（VLM）自动生成与人工验证相结合的标注流程，通过Qwen2.5-VL模型和EVQAScore质量评估体系，实现了细粒度场景描述、情感氛围标注及主题信息融合，为视频理解领域提供了首个专注于长视频语义关联的大规模基准。

当前挑战

领域挑战方面，LoVR揭示了当前模型处理长视频的三重困境：1）长时序依赖导致语义稀疏化，现有方法难以有效建模超过15分钟视频的全局叙事结构；2）多粒度对齐难题，要求模型同时实现视频级主题匹配与片段级动作识别；3）跨模态鸿沟，冗长文本描述（平均10万token）与动态视觉内容的精准映射仍待突破。构建挑战则体现在：1）标注质量与规模的平衡，需通过VLM自动生成、动态优化和人工校验的三阶段流水线解决；2）长视频 caption 的连贯性保持，提出基于语义融合的段落衔接算法以避免信息碎片化；3）计算成本控制，单个视频标注需消耗1.76 GPU小时（H800）。

常用场景

经典使用场景

在多媒体信息检索领域，LoVR数据集因其专注于长视频与文本的跨模态检索而成为研究热点。该数据集通过467段平均时长超过15分钟的长视频和40,804个精细标注的片段，为评估模型在复杂时序关系理解、细粒度语义对齐等方面的性能提供了标准测试平台。其典型应用场景包括视频内容摘要生成、教育视频的知识点定位以及影视素材的智能检索，特别是在需要处理多层次语义信息（如场景转换、主题演进）的场合展现出独特价值。

衍生相关工作

LoVR的发布催生了Video-LLaMA等长视频理解架构的革新，其标注框架被MM-Embed等跨模态模型借鉴用于提升细粒度对齐能力。基于该数据集开展的'主题感知检索'研究在ACL 2025获得最佳论文奖，而其对视频动态性的量化方法更衍生出PySceneDetect-X等开源工具。后续工作如LongViBench通过引入LoVR的混合标注策略，进一步将长视频数据集规模扩展至3,000小时。

数据集最近研究