LSDBench

github2025-03-28 更新2025-03-29 收录

下载链接：

https://github.com/dvlab-research/LSDBench

下载链接

链接失效反馈

官方服务：

资源简介：

LSDBench数据集旨在评估长视频视觉语言模型（VLM）的采样效率。它包含基于小时长视频的多选题问答对，重点关注具有高必要采样密度（NSD）的短时动作。数据集包含1304个问答对，400个视频，平均视频长度为45.39分钟（范围从20.32到115.32分钟），平均目标片段时长为3分钟。

The LSDBench dataset is designed to evaluate the sampling efficiency of long-video vision-language models (VLMs). It consists of multiple-choice question-answer pairs sourced from hour-long videos, with a particular focus on short-duration actions that demand high necessary sampling density (NSD). The dataset includes 1,304 question-answer pairs spanning 400 videos, with an average video duration of 45.39 minutes (ranging from 20.32 to 115.32 minutes) and an average target segment duration of 3 minutes.

创建时间：

2025-03-28

原始信息汇总

LSDBench: Long-video Sampling Dilemma Benchmark

概述

LSDBench是一个专注于长视频任务中采样困境的基准测试，旨在评估长视频视觉语言模型(VLMs)的采样效率。该基准通过设计高必要采样密度(NSD)的任务，解决低密度采样可能遗漏关键信息而高密度采样引入冗余的问题。

关键特性

LSDBench数据集：
- 包含基于小时级视频的多选题问答对。
- 聚焦于长视频中短时动作的高密度采样需求。
- 数据规模：
  - 问答对数量：1304
  - 视频数量：400
  - 平均视频长度：45.39分钟（范围20.32至115.32分钟）
  - 平均目标片段时长：3分钟
Reasoning-Driven Hierarchical Sampling (RHS)：
- 两阶段框架，通过聚焦重要片段提升长视频处理效率。
Semantic-Guided Frame Selector (SGFS)：
- 轻量级模块，无需问题先验即可选择视觉信息量更高的帧。

数据集使用

环境设置：
- 需要Python 3.9.2环境，依赖项通过requirements.txt安装。
- 支持Flash Attention优化。
视频下载：
- 需从Ego4D数据集获取，使用Ego4D CLI工具下载。
- 下载步骤包括申请许可证、配置AWS CLI、安装Ego4D CLI工具。
视频预处理：
- 提供脚本进行视频下采样处理，需安装ffmpeg。
- 支持自定义目标帧率（建议不低于2fps）。
评估：
- 提供两种评估模式：
  - 标准评估（使用RHS-Qwen2.5-VL模型）
  - Oracle设置评估（使用Qwen2.5-VL模型）

引用

bibtex @article{qu2025lsdbench, title = {Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?}, author = {Qu, Tianyuan and Tang, Longxiang and Peng, Bohao and Yang, Senqiao and Yu, Bei and Jia, Jiaya}, journal = {arXiv preprint arXiv:2503.12496}, year = {2025} }

搜集汇总

数据集介绍

构建方式

LSDBench数据集的构建聚焦于长视频处理中的采样困境问题，通过精心设计的任务评估视觉语言模型在长视频任务中的采样效率。该数据集基于400段时长在20至115分钟之间的视频，构建了1304个多项选择问答对，重点关注具有高必要采样密度（NSD）要求的短时动作片段。数据集的构建过程严格遵循科学实验设计原则，确保每个问答对都能有效反映模型在长视频理解中的关键挑战。

使用方法

使用LSDBench数据集需遵循严格的实验流程，首先需通过Ego4D官方渠道获取视频授权并下载原始数据。数据集提供了完整的预处理脚本，支持视频降采样以适应不同计算环境。评估阶段提供两种模式：标准评估和Oracle设置评估，用户可通过配置文件灵活选择模型架构和超参数。整个使用流程强调可复现性，从数据准备到结果验证均提供详细指导。

背景与挑战

背景概述

LSDBench是由香港中文大学团队于2025年提出的长视频采样困境基准测试集，旨在解决视觉语言模型在处理长视频时面临的关键挑战。随着视频理解技术的快速发展，大型视觉语言模型在短视频任务中表现出色，但在处理时长超过数小时的长视频时，如何在信息完整性和计算效率之间取得平衡成为亟待解决的核心问题。该数据集基于Ego4D数据集构建，包含400段平均时长45分钟的视频和1304个高质量问答对，重点关注需要高必要采样密度的短时动作理解任务，为长视频处理领域的研究提供了重要基准。

当前挑战

LSDBench揭示了长视频理解领域的两大核心挑战：在任务层面，模型面临采样密度与信息完整性之间的固有矛盾，低密度采样可能遗漏关键帧，而高密度采样则导致计算冗余；在构建层面，数据集需要精确标注长视频中的短时关键动作片段，这对标注人员的专业素养和标注工具提出了极高要求。此外，从技术实现角度，如何在保证模型推理速度的同时维持高精度，以及开发适应不同任务需求的动态采样策略，都是该领域亟待突破的难题。

常用场景

经典使用场景

在长视频理解领域，LSDBench数据集通过精心设计的多选题问答对，评估视觉语言模型在长视频任务中的采样效率。该数据集聚焦于长视频中短时动作的高密度采样需求，为研究者提供了一个标准化的测试平台。视频平均时长达45分钟，目标片段平均时长为3分钟，涵盖了从稀疏到密集采样的多种场景。

解决学术问题

LSDBench数据集针对长视频处理中的'采样困境'问题，即低密度采样可能遗漏关键信息，而高密度采样则带来冗余计算。通过构建高必要采样密度（NSD）问题，该数据集为研究自适应采样策略提供了实验基础。其提出的Reasoning-Driven Hierarchical Sampling（RHS）框架和Semantic-Guided Frame Selector（SGFS）模块，显著提升了长视频处理的效率与准确性。

实际应用

在实际应用中，LSDBench数据集可广泛应用于智能监控、视频内容分析等领域。例如，在零售场景中分析顾客结账行为，或在第一人称视角视频中追踪访问地点。数据集支持对长视频中关键片段的精准定位，为商业智能和安防监控提供技术支撑。

数据集最近研究