LvBench

github2025-10-23 更新2025-10-28 收录

下载链接：

https://github.com/ldong1111/LvBench

下载链接

链接失效反馈

官方服务：

资源简介：

LvBench是一个用于多功能多模态问答的长视频理解基准数据集。它通过三个关键特征区别于现有的长视频问答数据集：1）扩展的时间范围：考虑从70秒到4小时的视频，涵盖单场景、多场景和全场景上下文；2）多样化的问题类型和模态：引入六种不同的问题类型，评估各种感知和认知能力，利用视频帧和字幕；3）高质量标注：采用严格的人工标注

LvBench is a long video understanding benchmark dataset for multi-functional and multimodal question answering. It distinguishes itself from existing long-form video question answering datasets via three core characteristics: 1) Extended temporal coverage: It covers videos ranging from 70 seconds to 4 hours, encompassing single-scene, multi-scene and full-scene contexts; 2) Diverse question types and modalities: Six distinct question types are introduced to evaluate various perceptual and cognitive capabilities, leveraging both video frames and subtitles; 3) High-quality annotations: Strict manual annotation procedures are adopted.

创建时间：

2025-10-23

原始信息汇总

LvBench 数据集概述

数据集简介

LvBench 是一个用于长视频理解的多模态问答基准数据集，专注于评估模型在长视频内容中的理解能力。

核心特征

扩展的时间跨度：视频时长范围从70秒到4小时，涵盖单场景、多场景和全场景上下文
多样化问题类型和模态：包含六种不同的问题类型，评估多种感知和认知能力，同时利用视频帧和字幕
高质量标注：采用严格的人工标注流程

数据获取

问答数据和视频可从 Lvbench 下载

评估方法

支持使用 Qwen2.5-VL 模型进行评估
评估脚本路径：test_code_qwenvl25/eval.sh

相关资源

论文链接：https://arxiv.org/pdf/2312.04817
Hugging Face 数据集地址：https://huggingface.co/datasets/Lu1111/Lvbench

搜集汇总

数据集介绍

构建方式

在长视频理解研究领域，LvBench的构建采用了系统化的多模态数据采集策略。该数据集通过人工标注方式对视频内容进行精细标注，覆盖了从70秒至4小时不等的视频时长范围，囊括单场景、多场景及完整场景三种时空结构。构建过程中特别注重视频线索长度与上下文动态的平衡，确保样本能够全面反映真实世界中的复杂时序关系。

特点

作为长视频理解领域的前沿基准，LvBench展现出三个显著特征：其时间跨度设计突破了传统视频数据集的局限，通过分层时长设置有效捕捉不同粒度的时序依赖；六种异构问题类型全面评估感知与认知能力，涵盖动作识别、事件推理等多维度任务；双模态输入机制融合视觉帧与字幕文本，为多模态学习提供丰富信号。

使用方法

研究者可通过Hugging Face平台直接获取LvBench的完整数据资源，包括原始视频与对应问答标注。使用流程遵循标准的多模态基准评估范式，支持基于Qwen2.5-VL等先进模型的端到端测试。数据加载后可通过官方提供的评估脚本进行自动化性能评测，其模块化设计便于研究者针对特定问题类型开展专项分析。

背景与挑战

背景概述

随着多模态人工智能技术的快速发展，长视频理解成为计算机视觉与自然语言处理交叉领域的重要研究方向。LvBench由研究团队于2023年创建，致力于构建面向长视频理解的综合性评估基准。该数据集通过整合70秒至4小时不同时长的视频内容，涵盖单场景、多场景及完整叙事结构，旨在系统评估模型对复杂时空关系的推理能力。其创新性地融合视频帧与字幕文本，设计了六类涵盖感知与认知层面的问题类型，为推进视频内容深层语义理解建立了重要实验平台。

当前挑战

在长视频理解领域，模型需应对时序依赖建模与跨模态对齐的双重挑战。LvBench构建过程中面临视频时长跨度带来的标注复杂度，需要人工标注者持续跟踪数小时内的视觉线索与叙事逻辑。针对多场景转换的连贯性理解，数据集要求模型具备长期依赖捕捉能力，同时解决视频帧与字幕信息的细粒度对齐问题。不同问题类型的设计还考验着模型在动作识别、事件推理、因果分析等多维度认知任务的泛化性能。

常用场景

经典使用场景

在长视频理解研究领域，LvBench作为多模态问答基准数据集，主要应用于评估模型对长时序视频内容的深度理解能力。该数据集通过涵盖70秒至4小时的视频时长范围，支持研究者系统考察模型在单场景、多场景及完整场景下的表现，其精心设计的六类问题类型能够全面检验模型在视觉感知、时序推理和跨模态融合等方面的综合性能。

衍生相关工作

围绕LvBench数据集，研究社区已衍生出多项经典工作，包括基于Transformer的长视频时序建模方法、多模态特征融合策略以及高效的视频问答框架。这些工作不仅推动了长视频理解技术的进步，还催生了新的评估范式和模型架构。相关研究成果在计算机视觉和自然语言处理领域的顶级会议上得到广泛关注，形成了以LvBench为核心的长视频理解研究生态。

数据集最近研究