LVOmniBench

github2026-03-20 更新2026-03-20 收录

下载链接：

https://github.com/KD-TAO/LVOmniBench

下载链接

链接失效反馈

官方服务：

资源简介：

LVOmniBench是一个专门为长格式音频和视频的跨模态理解设计的新基准。我们策划了一系列多样化的长视频，时长从10到90分钟不等，平均时长为2,069秒。这一时长比现有的音频-视觉理解基准的时长大六倍以上。我们手动构建了1,014个高质量的多选题，这些问题明确设计为需要跨音频和视觉模态的联合推理，从而促进对OmniLLMs的更全面评估。每个QA按难度级别排名，长音频-视频理解对当前专有和开源模型都提出了重大挑战。

LVOmniBench is a novel benchmark specifically designed for cross-modal understanding of long-form audio and video. We curated a collection of diverse long-form videos, ranging from 10 to 90 minutes in duration, with an average length of 2,069 seconds. This duration is over six times longer than that of existing audio-visual understanding benchmarks. We manually constructed 1,014 high-quality multiple-choice questions, which are explicitly designed to require joint reasoning across audio and visual modalities to facilitate more comprehensive evaluations of OmniLLMs. Each QA pair is ranked by difficulty level, and long-form audio-video understanding poses significant challenges to both current proprietary and open-source models.

创建时间：

2026-03-12

原始信息汇总

LVOmniBench 数据集概述

数据集基本信息

数据集名称：LVOmniBench
核心定位：面向全模态大语言模型的长音频-视频理解评估基准
主要任务：音频-视频问答、长视频理解
发布状态：已发布
项目页面：https://kd-tao.github.io/LVOmniBench/
论文链接：暂未提供
数据集地址：https://huggingface.co/datasets/KD-TAO/LVOmniBench
联系邮箱：taokeda@westlake.edu.cn

数据集背景与目标

旨在解决现有评估主要针对短音频和视频片段（10秒至5分钟）的局限性。
针对现实应用需求，专注于长音频-视频输入的跨模态理解评估。

数据集关键特征

数据规模与构成

视频数量与时长：收集了多样化的长视频集合，视频时长范围在10至90分钟之间。
平均时长：视频平均时长为2,069秒。
时间尺度对比：与现有视听理解基准相比，时间尺度增加了六倍以上。
问答对数量：手动构建了1,014个高质量多项选择题。

数据质量与设计

问题设计：问题明确设计为需要跨音频和视觉模态进行联合推理。
难度分级：每个问答对均按难度等级进行排名。
评估挑战：长音频-视频理解对当前专有和开源模型均构成重大挑战。

评估方法

提示词格式：采用固定的提示词模板，要求模型直接输出代表选项的字母（A/B/C/D），不提供解释。
排行榜：支持通过联系邮箱提交结果以更新排行榜。

实验与结果

提供了不同全模态大语言模型在LVOmniBench上的主要评估结果。
提供了不同任务类型下的评估结果对比。

引用

引用信息暂未正式发布。

搜集汇总

数据集介绍

构建方式

在长音频视频理解领域，现有评估基准多聚焦于短时片段，难以满足现实场景中持续数十分钟的视听内容分析需求。LVOmniBench的构建过程始于精心筛选多样化的长视频资源，其时长范围覆盖10至90分钟，平均持续时间达到2069秒，较现有基准在时间尺度上扩展了六倍以上。研究团队进一步通过人工标注方式，针对这些长视频内容设计了1014道高质量多项选择题，每道题目均要求模型结合音频与视觉模态进行联合推理，以确保评估的深度与综合性。

特点

该数据集的核心特征体现在其专注于长时跨模态理解的评估挑战。视频样本的平均时长显著超越了传统视听基准，能够更真实地模拟实际应用场景。所有问题均经过难度分级，旨在系统化地考察模型在复杂时序信息与多模态对齐方面的能力。数据集中每个问题均明确依赖音视频信号的协同分析，避免了单一模态的片面解答，从而为全模态大语言模型提供了更为严谨和全面的性能检验平台。

使用方法

使用LVOmniBench进行评估时，研究者需按照标准提示模板构建输入。模板结构包含问题描述、选项列表以及明确的作答指令，要求模型直接输出代表选项的字母而不附加任何解释。评估完成后，若希望将结果纳入官方排行榜，可通过指定邮箱联系研究团队。该数据集已托管于Hugging Face平台，便于社区下载与应用，为推进长音频视频理解研究提供了标准化且便捷的基准工具。

背景与挑战

背景概述

随着全模态大语言模型的快速发展，音频与视频内容的理解能力取得了显著进步。然而，现有评估体系多聚焦于短时音视频片段，难以满足现实场景中对长时内容解析的需求。在此背景下，LVOmniBench应运而生，由研究团队于2026年3月正式发布，旨在填补长时音视频跨模态理解评估的空白。该数据集精心选取了时长从10分钟至90分钟不等的多样化视频素材，平均时长约2069秒，较现有基准在时间尺度上扩展了六倍以上。通过人工构建的1014道高质量多选题，LVOmniBench致力于推动模型在音视觉联合推理方面的深入研究，为全模态大语言模型的性能评估提供了更为全面和贴近实际应用的衡量标准。

当前挑战

LVOmniBench所针对的核心领域挑战在于长时音视频理解，这要求模型能够对跨越数十分钟的连续音视频流进行语义连贯的解析与推理。具体而言，模型需克服长时序依赖下的信息衰减、跨模态信号对齐以及复杂场景中的细粒度关联等难题。在数据集构建过程中，研究团队面临多重挑战：一是长视频内容的采集与标注需耗费大量人力，确保视频多样性与问题设计的平衡；二是多选题的构建必须严格依赖音视觉信息的深度融合，避免单一模态即可解答的偏差；三是难度分级体系的建立，需要依据人类认知逻辑对问题进行细致划分，以准确反映模型在不同复杂度任务上的表现差异。

常用场景

经典使用场景

在人工智能多模态研究领域，长时音视频理解是评估模型跨模态推理能力的关键挑战。LVOmniBench作为专为长时音视频理解设计的评估基准，其经典使用场景在于系统性地测评全模态大语言模型在长达10至90分钟音视频内容中的联合感知与推理性能。该数据集通过精心构建的1014道高质量多选题，要求模型同步解析音频与视觉线索，从而深入检验模型在复杂时序信息中的语义整合与逻辑推断能力，为学术界提供了衡量模型长时跨模态理解水平的标准化测试平台。

衍生相关工作

围绕LVOmniBench所设立的长时音视频理解新范式，已催生了一系列前沿研究探索。例如，部分工作专注于开发新型的时空注意力架构，以增强模型对长序列跨模态特征的捕获能力；另一些研究则致力于设计高效的内存机制，以应对长时内容带来的信息过载挑战。这些衍生工作不仅在全模态大语言模型的架构创新与训练策略上取得了进展，也进一步丰富了长时多模态理解的理论框架，为后续更复杂的跨模态时序推理任务奠定了坚实基础。

数据集最近研究