five

LSDBench

收藏
github2025-03-28 更新2025-03-29 收录
下载链接:
https://github.com/dvlab-research/LSDBench
下载链接
链接失效反馈
官方服务:
资源简介:
LSDBench数据集旨在评估长视频视觉语言模型(VLM)的采样效率。它包含基于小时长视频的多选题问答对,重点关注具有高必要采样密度(NSD)的短时动作。数据集包含1304个问答对,400个视频,平均视频长度为45.39分钟(范围从20.32到115.32分钟),平均目标片段时长为3分钟。

The LSDBench dataset is designed to evaluate the sampling efficiency of long-video vision-language models (VLMs). It consists of multiple-choice question-answer pairs sourced from hour-long videos, with a particular focus on short-duration actions that demand high necessary sampling density (NSD). The dataset includes 1,304 question-answer pairs spanning 400 videos, with an average video duration of 45.39 minutes (ranging from 20.32 to 115.32 minutes) and an average target segment duration of 3 minutes.
创建时间:
2025-03-28
原始信息汇总

LSDBench: Long-video Sampling Dilemma Benchmark

概述

LSDBench是一个专注于长视频任务中采样困境的基准测试,旨在评估长视频视觉语言模型(VLMs)的采样效率。该基准通过设计高必要采样密度(NSD)的任务,解决低密度采样可能遗漏关键信息而高密度采样引入冗余的问题。

关键特性

  1. LSDBench数据集

    • 包含基于小时级视频的多选题问答对。
    • 聚焦于长视频中短时动作的高密度采样需求。
    • 数据规模:
      • 问答对数量:1304
      • 视频数量:400
      • 平均视频长度:45.39分钟(范围20.32至115.32分钟)
      • 平均目标片段时长:3分钟
  2. Reasoning-Driven Hierarchical Sampling (RHS)

    • 两阶段框架,通过聚焦重要片段提升长视频处理效率。
  3. Semantic-Guided Frame Selector (SGFS)

    • 轻量级模块,无需问题先验即可选择视觉信息量更高的帧。

数据集使用

  1. 环境设置

    • 需要Python 3.9.2环境,依赖项通过requirements.txt安装。
    • 支持Flash Attention优化。
  2. 视频下载

    • 需从Ego4D数据集获取,使用Ego4D CLI工具下载。
    • 下载步骤包括申请许可证、配置AWS CLI、安装Ego4D CLI工具。
  3. 视频预处理

    • 提供脚本进行视频下采样处理,需安装ffmpeg。
    • 支持自定义目标帧率(建议不低于2fps)。
  4. 评估

    • 提供两种评估模式:
      • 标准评估(使用RHS-Qwen2.5-VL模型)
      • Oracle设置评估(使用Qwen2.5-VL模型)

引用

bibtex @article{qu2025lsdbench, title = {Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?}, author = {Qu, Tianyuan and Tang, Longxiang and Peng, Bohao and Yang, Senqiao and Yu, Bei and Jia, Jiaya}, journal = {arXiv preprint arXiv:2503.12496}, year = {2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
LSDBench数据集的构建聚焦于长视频处理中的采样困境问题,通过精心设计的任务评估视觉语言模型在长视频任务中的采样效率。该数据集基于400段时长在20至115分钟之间的视频,构建了1304个多项选择问答对,重点关注具有高必要采样密度(NSD)要求的短时动作片段。数据集的构建过程严格遵循科学实验设计原则,确保每个问答对都能有效反映模型在长视频理解中的关键挑战。
使用方法
使用LSDBench数据集需遵循严格的实验流程,首先需通过Ego4D官方渠道获取视频授权并下载原始数据。数据集提供了完整的预处理脚本,支持视频降采样以适应不同计算环境。评估阶段提供两种模式:标准评估和Oracle设置评估,用户可通过配置文件灵活选择模型架构和超参数。整个使用流程强调可复现性,从数据准备到结果验证均提供详细指导。
背景与挑战
背景概述
LSDBench是由香港中文大学团队于2025年提出的长视频采样困境基准测试集,旨在解决视觉语言模型在处理长视频时面临的关键挑战。随着视频理解技术的快速发展,大型视觉语言模型在短视频任务中表现出色,但在处理时长超过数小时的长视频时,如何在信息完整性和计算效率之间取得平衡成为亟待解决的核心问题。该数据集基于Ego4D数据集构建,包含400段平均时长45分钟的视频和1304个高质量问答对,重点关注需要高必要采样密度的短时动作理解任务,为长视频处理领域的研究提供了重要基准。
当前挑战
LSDBench揭示了长视频理解领域的两大核心挑战:在任务层面,模型面临采样密度与信息完整性之间的固有矛盾,低密度采样可能遗漏关键帧,而高密度采样则导致计算冗余;在构建层面,数据集需要精确标注长视频中的短时关键动作片段,这对标注人员的专业素养和标注工具提出了极高要求。此外,从技术实现角度,如何在保证模型推理速度的同时维持高精度,以及开发适应不同任务需求的动态采样策略,都是该领域亟待突破的难题。
常用场景
经典使用场景
在长视频理解领域,LSDBench数据集通过精心设计的多选题问答对,评估视觉语言模型在长视频任务中的采样效率。该数据集聚焦于长视频中短时动作的高密度采样需求,为研究者提供了一个标准化的测试平台。视频平均时长达45分钟,目标片段平均时长为3分钟,涵盖了从稀疏到密集采样的多种场景。
解决学术问题
LSDBench数据集针对长视频处理中的'采样困境'问题,即低密度采样可能遗漏关键信息,而高密度采样则带来冗余计算。通过构建高必要采样密度(NSD)问题,该数据集为研究自适应采样策略提供了实验基础。其提出的Reasoning-Driven Hierarchical Sampling(RHS)框架和Semantic-Guided Frame Selector(SGFS)模块,显著提升了长视频处理的效率与准确性。
实际应用
在实际应用中,LSDBench数据集可广泛应用于智能监控、视频内容分析等领域。例如,在零售场景中分析顾客结账行为,或在第一人称视角视频中追踪访问地点。数据集支持对长视频中关键片段的精准定位,为商业智能和安防监控提供技术支撑。
数据集最近研究
最新研究方向
在长视频理解领域,LSDBench数据集的推出标志着对视觉语言模型(VLMs)处理长视频效率问题的深入探索。该数据集聚焦于长视频任务中的采样困境,即如何在稀疏的关键帧与高密度采样之间取得平衡,以兼顾信息完整性和计算效率。通过构建高必要采样密度(NSD)的问答对,LSDBench为评估模型在长视频中的采样效率提供了标准化基准。当前研究热点集中在自适应采样策略的开发上,如提出的推理驱动分层采样(RHS)框架和语义引导帧选择器(SGFS),这些方法旨在优化模型对关键片段的关注,减少冗余计算。随着视频数据的爆炸式增长,LSDBench的研究不仅推动了长视频理解技术的发展,也为实际应用中的计算资源分配提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作