LongTVQA, LongTVQA+

Name: LongTVQA, LongTVQA+
Creator: 香港科技大学
Published: 2025-12-24 02:59:49
License: 暂无描述

arXiv2025-12-24 更新2025-12-25 收录

下载链接：

https://longvideoagent.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

LongTVQA和LongTVQA+是由香港科技大学研究团队构建的长视频问答数据集，基于TVQA/TVQA+扩展而来，旨在评估模型在剧集级长视频中的理解和推理能力。该数据集包含从电视剧中提取的长视频片段，涉及多模态信息（如视觉帧、字幕和对话线索），数据量未明确提及但覆盖小时级视频内容。其构建过程通过聚合现有数据集并扩展时间维度实现，专注于解决长视频中稀疏分布信息的细粒度时序推理问题，为多智能体框架提供严格的测试基准。

LongTVQA and LongTVQA+ are long-form video question answering datasets developed by the research team from The Hong Kong University of Science and Technology, which are extended from the existing TVQA/TVQA+. These datasets aim to evaluate the comprehension and reasoning capabilities of models when dealing with episode-level long-form videos. They contain long-form video clips extracted from TV series, involving multimodal information such as visual frames, subtitles and dialogue cues. The exact scale of the datasets is not specified, but they cover hour-long video content. The construction of these datasets is achieved by aggregating existing datasets and expanding the temporal dimension, focusing on solving the fine-grained temporal reasoning problem of sparsely distributed information in long-form videos, and serving as a rigorous test benchmark for multi-agent frameworks.

提供机构：

香港科技大学

创建时间：

2025-12-24

搜集汇总

数据集介绍

构建方式

在长视频理解领域，现有基准多集中于短片段分析，难以评估模型对小时级视频内容的时序推理能力。LongTVQA与LongTVQA+的构建正是为了填补这一空白，它们以经典的TVQA和TVQA+数据集为基础，通过聚合同一电视剧集的所有片段，形成完整的剧集级长视频序列。具体而言，研究者将原始数据集中分散的视觉流、字幕及对应问题按剧集时间线重新整合，保留TVQA+中的时空标注框，并统一调整时间戳索引，从而构建出包含丰富多模态信息且时长达到小时规模的评估基准。

特点

该数据集的核心特点在于其长时序与多模态的复杂性。相较于传统短视频问答数据集，LongTVQA系列将视频时长扩展至剧集级别，要求模型在稀疏分布的信息中定位关键证据，并融合视觉与对话线索进行推理。数据集不仅继承了TVQA+的细粒度时空标注，还保持了多选问答形式，问题设计侧重于对剧情细节、人物交互及场景变化的深度理解。这种结构为评估模型在真实长视频场景下的时序感知、跨模态对齐与多步推理能力提供了严谨的测试平台。

使用方法

在应用层面，LongTVQA与LongTVQA+主要用于评估和推进长视频问答系统的性能。研究者通常将数据集作为基准，测试各类多模态大模型或智能体框架在长时序理解任务上的表现。典型的使用流程包括：加载整合后的剧集视频、字幕及问题，利用模型或智能体系统进行时序定位与视觉信息提取，最终生成答案并与标注结果比对以计算准确率。该数据集尤其适合用于验证多智能体协作、强化学习规划以及工具增强型推理等前沿方法的有效性，为长视频理解领域的技术发展提供关键实证依据。

背景与挑战

背景概述

随着多模态大语言模型在视频理解领域的快速发展，处理长达数小时的视频内容成为新兴挑战。传统方法通常通过压缩或下采样来简化输入，但往往导致细粒度线索丢失与时间定位模糊。在此背景下，香港科技大学的研究团队于2025年提出了LongTVQA与LongTVQA+数据集，旨在推动长视频问答系统的研究。该数据集基于经典的TVQA与TVQA+构建，通过将同一电视剧集的所有片段聚合为完整的剧集级序列，形成了小时级别的评估基准。其核心研究问题聚焦于如何在稀疏分布的多模态信息中实现精准的时间定位与细粒度推理，从而显著提升长视频理解的深度与准确性。

当前挑战

LongTVQA数据集致力于解决长视频问答这一复杂任务，其核心挑战在于如何从小时级别的视频中高效提取稀疏分布的关键信息，并实现跨模态的细粒度推理。具体而言，领域问题的挑战包括：模型需要克服长视频带来的巨大上下文负担，避免因信息压缩而丢失重要的时序与视觉细节；同时，问答任务要求系统能够精准理解对话、视觉场景及其交互关系。在数据集构建过程中，挑战主要体现为如何将原有的片段级标注无缝整合到剧集级时间线上，并确保时间戳与空间标注（如TVQA+中的边界框）在聚合后保持一致性与可用性，从而为模型提供可靠且连贯的监督信号。

常用场景

经典使用场景

在长视频理解领域，LongTVQA与LongTVQA+数据集为评估多模态大语言模型在小时级视频内容上的推理能力提供了基准。该数据集通过聚合电视剧单集的所有片段，构建出包含完整对话字幕、视觉流及时间标注的连续长视频序列，其经典使用场景集中于测试模型对稀疏分布信息的检索与整合能力。研究者通常利用该数据集验证多智能体框架在定位相关片段、提取细粒度视觉线索以及进行多轮迭代推理方面的有效性，从而推动长视频问答技术向更精准、更高效的方向发展。

解决学术问题

LongTVQA系列数据集主要解决了长视频理解中信息稀疏性与时序依赖性的核心挑战。传统方法因受限于上下文长度，往往通过降采样或压缩处理视频，导致细粒度证据丢失与时间定位模糊。该数据集通过提供完整的剧集级标注，使得研究能够专注于开发能够主动检索、定位并融合多模态信息的智能体系统。其意义在于为长视频问答建立了严格的评估标准，促进了多智能体协作、强化学习规划等前沿方向的发展，并为解决现实世界中长时程、多模态信息的理解问题提供了关键的数据支撑。

衍生相关工作

围绕LongTVQA数据集，一系列经典研究工作得以衍生并推动了领域进展。多智能体框架如LONGVIDEOAGENT，通过协调定位智能体与视觉智能体，实现了对长视频的迭代式推理。同时，该数据集也促进了如VideoAgent、VideoTree等智能体架构的演进，这些工作进一步探索了记忆机制、树状规划与稀疏检索等技术。在训练方法上，基于强化学习的奖励驱动策略被广泛采用，以优化智能体的决策效率与答案准确性。这些衍生工作共同构建了一个以主动感知、规划与协作为核心的长视频理解研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集