LiViBench

Name: LiViBench
Creator: 北京大学·电子与计算机工程学院; 抖音集团
Published: 2026-01-21 22:14:20
License: 暂无描述

arXiv2026-01-21 更新2026-01-23 收录

下载链接：

https://github.com/Wang-Xiaodong1899/LiViBench

下载链接

链接失效反馈

官方服务：

资源简介：

LiViBench是由北京大学与抖音集团联合构建的首个全模态交互式直播视频评测基准，涵盖9个垂直领域（如聊天、歌唱）的24类任务。数据集包含3168条时长14秒至33分钟的直播视频，附带音频、语音和实时评论模态，并构建了3175道高质量多选题。数据通过半自动标注流程生成，结合多智能体系统描述视频内容，并基于种子问题库优化标注质量。该数据集旨在解决现有视频理解模型对直播场景交互特性（如实时评论、多主播互动）的认知不足问题，推动多模态大模型在社交娱乐等领域的应用。

LiViBench is the first all-modal interactive live video evaluation benchmark jointly developed by Peking University and ByteDance, covering 24 task categories across 9 vertical domains such as chatting and singing. The dataset includes 3,168 live video clips with durations ranging from 14 seconds to 33 minutes, accompanied by audio, speech, and real-time comment modalities, and comprises 3,175 high-quality multiple-choice questions. The data is generated through a semi-automatic annotation pipeline, which utilizes a multi-agent system to describe video content and optimizes annotation quality based on a seed question bank. This benchmark aims to address the insufficient cognition of existing video understanding models toward the interactive characteristics of live streaming scenarios, such as real-time comments and multi-host interactions, and promote the application of multimodal large language models in social entertainment and other fields.

提供机构：

北京大学·电子与计算机工程学院; 抖音集团

创建时间：

2026-01-21

原始信息汇总

LiViBench数据集概述

数据集基本信息

数据集名称：LiViBench
相关研究：AAAI 2026
全称：LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding
公开状态：待批准

数据集简介

LiViBench是一个面向交互式直播视频理解的全模态基准测试集。

搜集汇总

数据集介绍

构建方式

在交互式直播视频理解领域，现有基准多集中于非交互内容，LiViBench的构建采用了一种标准化的半自动标注工作流。该方法创新性地引入了人机协同的多阶段参与机制，首先利用多个多模态大语言模型组建多智能体系统，对视频内容进行全面描述，以规避单一模型的描述偏差。随后通过种子问题驱动的策略，基于专有模型自动生成候选问题库，并经过人工修订与扩充，形成高质量的问题种子。针对每个视频，模型依据详细描述生成任务相关的候选问题，再由人工进行筛选与精炼，最终通过严格的质量控制流程，确保多选问答集的清晰性、正确性与相关性。

特点

LiViBench作为首个面向交互式直播视频的全模态基准，其核心特点体现在任务设计的全面性与数据模态的丰富性。该基准涵盖了以人为中心的9个垂直领域，并系统性地定义了24项具体任务，这些任务广泛分布于通用感知与推理、知识问答以及凸显直播交互特性的专项任务之中。数据集包含3,168个时长从14秒至33分钟不等的直播视频，并配备了3,175个高质量多选题。尤为突出的是，每个视频均同步整合了音频、语音识别文本以及海量实时评论数据，构成了一个异构且全面的多模态评估环境，精准捕捉了直播场景中实时互动的本质特征。

使用方法

该数据集主要用于评估多模态大语言模型对交互式直播视频的理解能力。研究者可将模型在LiViBench的24项任务上进行系统性评测，任务类别涵盖粗粒度感知、细粒度感知、知识推理、通用推理及直播专项。评估时需为模型输入包含视频、音频、语音文本及实时评论的全模态数据。为高效利用海量评论信息，论文配套提出了视频到评论检索模块，该模块能依据视频特征检索关键评论，缓解模型输入上下文长度的压力并提升信息提取效率。此外，基于该基准构建的指令微调数据集，可用于对模型进行针对交互式视频理解的两阶段专项训练，以增强其在该领域的知识储备与推理能力。

背景与挑战

背景概述

随着多模态大语言模型在通用视频理解领域的飞速发展，现有评估基准主要集中于电影、录播等非交互式视频内容，对直播这类强调实时互动性的视频形态缺乏覆盖。为填补这一空白，北京大学与抖音集团的研究团队于2026年提出了首个面向交互式直播视频的全模态基准LiViBench。该基准旨在系统评估模型对直播场景中复杂互动内容的理解能力，其核心研究问题聚焦于如何量化并提升多模态模型对包含实时评论、音频、语音等多种模态的交互式视频的感知与推理性能。LiViBench涵盖了聊天、歌舞等九大垂直领域，设计了包含24项任务的综合评估体系，其构建标志着视频理解研究从静态内容分析向动态人机交互场景的重要拓展，为后续面向实时流媒体的人工智能研究奠定了关键的数据基础。

当前挑战

LiViBench致力于解决的领域核心挑战在于交互式直播视频的理解，这要求模型不仅能解析视觉与音频内容，还需深度融合实时评论等动态文本信息，并理解主播与观众间的复杂互动逻辑。此类场景特有的多模态异步对齐、实时信息过载以及互动意图推理构成了传统视频理解模型未曾面对的技术难题。在数据集构建过程中，研究团队面临两大主要挑战：一是如何高效生成高质量、多样化的评估数据，传统全人工标注成本高昂，而单一模型自动标注则易引入模型偏见与错误；二是如何设计半自动化流程以平衡效率与质量，为此团队创新性地采用了融合多智能体系统的标准化工作流，通过构建种子问题库驱动生成，并在多个环节引入人工审核循环，以应对视频描述全面性、问题设计合理性以及答案准确性等多维度的质量控制挑战。

常用场景

经典使用场景

在交互式直播视频理解研究领域，LiViBench作为首个全模态基准测试集，其经典使用场景聚焦于评估多模态大语言模型对复杂互动视频内容的深度解析能力。该数据集通过整合音频、语音和实时评论等多模态信息，模拟真实直播环境中的动态交互过程，为模型提供了涵盖感知、推理和直播专属任务的综合性测试平台。研究者利用其精心设计的24项任务，系统性地检验模型在多人互动、行为推理、实时反馈理解等关键场景下的表现，从而精准衡量模型对交互式视频语义的捕捉与诠释水平。

衍生相关工作

围绕LiViBench衍生的经典工作主要包括其提出的创新性方法框架与高性能模型。数据集构建中首创的多智能体半自动标注流程与种子问题驱动策略，为高质量视频标注提供了可复用的标准化方案。基于此开发的LiVi-LLM-7B模型，通过两阶段指令微调与视频-评论检索模块，显著提升了模型对交互式视频的理解能力，在多项基准测试中超越了参数规模更大的开源模型。这些工作不仅为交互式视频理解设立了新的性能标杆，其提出的VCR模块与训练策略也为后续研究提供了重要的技术参考，推动了该领域在模态融合与实时信息处理方面的持续创新。

数据集最近研究