Video-LevelGauge

github2025-08-28 更新2025-08-29 收录

下载链接：

https://github.com/Cola-any/Video-LevelGauge

下载链接

链接失效反馈

官方服务：

资源简介：

Video-LevelGauge是一个专门设计用于研究视频理解中上下文位置偏差的数据集。它引入了标准化探针和定制化上下文设计范式，将精心设计的探针片段插入到定制化上下文内容的不同位置。通过比较模型在不同插入点对相同探针的响应，评估视频理解中的位置偏差。它支持灵活控制上下文长度、探针位置和上下文组成，以评估各种现实场景中的位置偏差，如多视频理解、长视频理解和多模态交错输入。Video-LevelGauge包含六类结构化视频理解任务（如动作推理）以及一个开放式描述性任务，包括438个手动收集的多类型视频、1,177个多选题项目和120个带有注释的开放式指导描述问题。

Video-LevelGauge is a dataset specifically designed for investigating contextual positional bias in video understanding. It introduces standardized probes and a customized context design paradigm, inserting well-designed probe segments into various positions of customized contextual content. It evaluates positional bias in video understanding by comparing model responses to the identical probe across different insertion points. It enables flexible control over context length, probe position, and contextual composition to evaluate positional bias across diverse real-world scenarios, including multi-video understanding, long-form video understanding, and multimodal interleaved inputs. Video-LevelGauge encompasses six categories of structured video understanding tasks (e.g., action reasoning) and one open-ended descriptive task, comprising 438 manually collected multi-type videos, 1,177 multiple-choice items, and 120 annotated open-ended guided descriptive questions.

创建时间：

2025-08-19

原始信息汇总

Video-LevelGauge 数据集概述

数据集简介

Video-LevelGauge 是一个专门设计用于研究大型视频语言模型（LVLMs）中上下文位置偏差的数据集。该数据集通过标准化探测和定制化上下文设计范式，将精心设计的探测片段插入到不同位置的定制上下文中，通过比较模型在不同插入点对相同探测的响应来评估视频理解中的位置偏差。

数据集内容

视频数量：438 个手动收集的多类型视频
任务类型：六类结构化视频理解任务（如动作推理）和一个开放式描述性任务
问题数量：1,177 个多项选择问答（MCQA）项目和 120 个开放式指令描述问题
数据来源：源自多个已发布数据集（VideoMME、MLVU、VisDrone、UCF-Crime 和 Ego4D）

主要特性

支持灵活控制上下文长度、探测位置和上下文组成
评估多视频理解、长视频理解和多模态交错输入等各种现实场景中的位置偏差
包含手动收集的视频和配对标注

许可证信息

使用 CC-BY-NC-SA-4.0 许可证
仅用于学术研究，禁止任何形式的商业使用
用户必须遵守原始数据集的许可证要求

数据访问

数据集标注文件和原始视频可通过 Hugging Face 链接访问：https://huggingface.co/datasets/Cola-any/Video-LevelGauge

相关论文

标题：Video-LevelGauge: Investigating Contextual Positional Bias in Large Video Language Models
作者：Hou, Xia 等
期刊：arXiv preprint arXiv:2508.19650
年份：2025

搜集汇总

数据集介绍

构建方式

在视频语言模型研究领域，Video-LevelGauge采用标准化探针与定制化上下文设计范式构建。通过精心设计的探针片段插入定制化上下文内容的不同位置，系统评估模型对相同内容在不同位置的理解一致性。数据集整合六个结构化视频理解任务类别，包含438个多类型手动采集视频、1177个多项选择题及120个开放式描述性问题，所有数据均配备详细标注。

使用方法

研究人员可通过Hugging Face平台获取原始视频与标注文件，采用标准化的评估流程进行模型测试。使用时需将探针视频片段置于不同上下文位置，通过对比模型响应分析位置敏感性。评估指标重点关注模型在不同插入点对相同内容理解的稳定性，适用于商业模型与开源模型的系统性评测，所有使用必须严格遵守CC-BY-NC-SA-4.0学术许可协议。

背景与挑战

背景概述

视频语言模型作为多模态人工智能的重要分支，近年来在长视频理解任务中展现出显著潜力。Video-LevelGauge数据集由中国科学院大学等机构的研究团队于2025年创建，旨在系统探究大型视频语言模型中的上下文位置偏差现象。该数据集基于心理学中的序列位置效应理论，通过精心设计的探测片段插入机制，揭示了模型对视频内容位置敏感性的科学问题，为评估模型在长视频理解中的一致性表现提供了重要基准。

当前挑战

该数据集核心挑战在于解决长视频理解中的位置偏差问题，即模型对相同内容在不同视频位置产生不一致响应的现象。构建过程中需克服多模态数据对齐的复杂性，包括438个多类型视频的采集与标注、1,177个多选题项的语义设计，以及跨数据集（VideoMME、MLVU等）版权合规性协调。同时需确保探测片段在不同上下文类型（多视频理解、多模态交错输入等）中保持评估有效性，这对实验范式的标准化提出了较高要求。

常用场景

经典使用场景

在视频语言模型研究领域，Video-LevelGauge数据集通过标准化探测片段插入不同视频位置的设计范式，系统评估模型对长视频内容的位置敏感性。该数据集支持灵活控制上下文长度、探测位置和内容组合，广泛应用于多视频理解、长视频认知和多模态交错输入等场景的偏差检测，为模型一致性评估提供重要基准。

解决学术问题

该数据集有效解决了大视频语言模型中存在的位置偏差学术问题，通过量化分析模型对相同内容在不同序列位置的响应差异，揭示了心理学序列位置效应在多模态模型中的表征规律。其意义在于建立了首套针对视频上下文位置偏差的评估体系，为提升长视频理解的稳定性和可靠性提供理论依据，推动视频AI模型向更公平、鲁棒的方向发展。

实际应用

在实际应用层面，Video-LevelGauge为视频内容分析平台、智能监控系统和人机交互界面提供了模型偏差检测工具。其评估框架可集成到视频摘要生成、事件检索和跨模态推理等实际场景中，帮助开发者优化模型在长视频处理中的表现一致性，提升医疗影像分析、自动驾驶视频感知等关键领域的应用可靠性。

数据集最近研究