PerceptionComp

Name: PerceptionComp
Creator: 清华大学; 华盛顿大学; 南洋理工大学
Published: 2026-03-28 01:54:36
License: 暂无描述

arXiv2026-03-28 更新2026-03-31 收录

下载链接：

https://perceptioncomp.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

PerceptionComp是由清华大学、华盛顿大学和南洋理工大学联合构建的高复杂度视频理解评测基准，包含279个场景复杂视频和1114道五选一问题。该数据集通过SAM2实例计数和光流幅度筛选高密度物体、强运动及频繁场景转换的视频，每个问题需10-20分钟人工标注，确保答案需组合多个时空分离的视觉证据。其创新性在于强制模型进行感知驱动的长程推理，涵盖语义识别、视觉对应、时空推理等复合技能，主要应用于评估多模态语言模型在重复感知和证据整合方面的能力，为突破现有视频理解瓶颈提供诊断工具。

提供机构：

清华大学; 华盛顿大学; 南洋理工大学

创建时间：

2026-03-28

原始信息汇总

PerceptionComp: 视频基准数据集概述

数据集基本信息

数据集名称: PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning
发布年份: 2026
发布平台: arXiv
论文编号: arXiv:2603.26653
创建机构: 清华大学、华盛顿大学、南洋理工大学

数据集规模与构成

视频数量: 279个高场景复杂度视频
问题数量: 1,114个五选一选择题
视频类别: 7类
标注耗时: 每个问题需要10–20分钟的人工标注
标注方式: 100%人工标注

视频类别

城市漫步导览
商场购物
体育比赛
室内别墅导览
综艺节目
电影片段
游戏直播

核心设计目标

旨在评估需要重复感知的长时程、以感知为中心的推理能力。
设计原则：没有任何单一时刻的信息是充分的，回答问题需要从多个时间上分离的片段中收集证据，并满足组合约束。
视频选择标准：使用SAM2实例计数和光流幅度作为场景复杂度的自动代理指标。

评估的感知技能

语义理解: 识别物体类别、属性以及高级关系。
空间理解: 推理场景布局和相对几何关系。
时间理解: 跟踪运动模式，定位事件时间顺序。
对应关系: 跨时间和视角的实例匹配与跟踪。

性能基准（整体准确率）

专家（无限制重看）: 100.00%
人类（允许重看）: 85.10%
最佳模型（Gemini-3-Flash）: 45.96%
单次观看人类（不允许重看）: 18.97%
随机猜测水平: 20%

关键发现

语言推理 ≠ 感知推理: 更强的语言侧思维不会自动改善感知驱动的视频推理。
测试时推理有帮助（+11%）: 但远未弥合与人类水平的差距。
空间理解是瓶颈: 60%的中间链失败归因于违反空间子条件。
中间链崩溃（峰值在步骤3: 40%）: 一旦中间实体识别错误，后续推理链会偏离事实。
前沿模型集中在40%中段: 不同架构的模型性能趋同，表明存在根本性瓶颈。
仅靠规模无法解决问题: 模型参数量（如235B与8B）对整体性能影响有限。

数据与代码访问

论文链接: https://arxiv.org/abs/2603.26653
GitHub: https://github.com/perceptioncomp
Hugging Face: https://huggingface.co/datasets/perceptioncomp

搜集汇总

数据集介绍

构建方式

在视频理解领域，深度认知依赖于跨越长时间范围的感知中心推理，这要求模型能够反复审视视频以收集分散在时间轴上的证据。PerceptionComp数据集的构建正是为了满足这一需求，其采用全手动标注流程，精心筛选了279段具有高场景复杂度的视频，涵盖城市漫步、室内导览、电子游戏直播等多种真实场景。视频选择基于自动代理指标，如SAM2实例数量和光流幅度，以确保对象密度、运动强度和场景动态的丰富性。每个问题由多个子条件组合而成，采用合取与顺序两种逻辑结构，确保没有任何单一时刻足以提供答案，必须从多个时间分离的片段中整合证据。整个标注过程严谨，每个问题耗时10至20分钟，最终形成了1,114道五选一选择题，旨在可靠评估模型在复杂感知推理中的表现。

使用方法

PerceptionComp数据集的使用方法主要围绕评估多模态大语言模型在复杂视频推理中的性能展开。研究者可将该数据集作为基准，测试模型在五选一选择题上的准确率，同时分析模型在不同难度级别和视频类别上的表现。使用时应提供原始视频或均匀采样的帧序列作为输入，对于支持视频输入的模型可直接馈送视频，否则建议采样64帧以确保视觉证据的充分性。评估中可采用思维链提示以激发模型的推理能力，并通过控制输入帧数和思考令牌预算来探究感知与推理资源对性能的影响。该数据集还可用于诊断模型在空间理解、特征感知等常见错误模式上的瓶颈，推动感知中心长时域视频推理技术的进步。

背景与挑战

背景概述

视频理解作为多模态人工智能的核心领域，其发展亟需能够评估模型在复杂、长时序、感知中心化推理能力的基准数据集。传统视频基准如VideoMME或Perception Test虽侧重感知任务，但往往通过单次观看即可解决，未能充分衡量模型在多次回溯视频、整合跨时段证据方面的能力；而侧重于逻辑推理的基准则常依赖简化视觉输入，难以反映真实场景中感知与推理的紧密耦合。为填补这一空白，由清华大学、华盛顿大学及南洋理工大学的研究团队于2026年共同提出了PerceptionComp数据集。该数据集包含279个高场景复杂度的视频，涵盖城市漫步、体育赛事、室内导览等多种领域，并配有1,114道经过全手动标注的五选一问题。其核心研究问题在于推动模型执行组合式、感知中心的视频推理，要求模型必须从多个时间分散的片段中提取证据，并满足序列或并列的逻辑约束，从而实现对深度视频理解能力的系统化评估。

当前挑战

PerceptionComp所应对的领域挑战在于推进视频理解中感知与长时序推理的深度融合。具体而言，它旨在解决现有基准无法衡量的‘感知中心化长时序推理’能力，即模型需要反复观看视频，整合语义识别、视觉对应、时空推理等多种感知技能，以回答那些无法从单一时刻推导出的组合式问题。在构建过程中，数据集面临多重挑战：首先，视频筛选需确保高场景复杂度，研究者采用SAM2实例计数与光流幅度作为代理指标，以选取对象密集、运动剧烈、场景转换频繁的视频，避免模型依赖简单视觉摘要。其次，问题设计需满足‘无单一时刻足够’的原则，每个问题由多个感知子条件通过并列或序列逻辑组合而成，且每个子条件均为必要，这要求标注者进行精细的逻辑验证与唯一性检查，导致单问题标注耗时长达10至20分钟。此外，为杜绝语言先验的干扰，答案选项需在相同类别内设计高度混淆的干扰项，进一步增加了标注的严谨性与复杂性。

常用场景

经典使用场景

在视频理解研究领域，PerceptionComp数据集被广泛应用于评估多模态大语言模型在复杂感知中心推理任务上的性能。该数据集通过精心设计的组合式问题，要求模型在长视频中反复观察并整合时空分散的视觉证据，从而检验模型在语义识别、时空对应、空间推理等多维度感知技能上的综合能力。其经典使用场景包括对模型进行端到端的视频问答测试，特别是在需要多次回看视频片段以提取关键信息的任务中，PerceptionComp能够有效区分模型在长时程推理与精细感知方面的优劣。

解决学术问题

PerceptionComp数据集主要解决了视频理解研究中长期存在的挑战，即如何准确衡量模型在真实世界复杂场景下的感知中心推理能力。传统基准测试往往侧重于单一时刻的感知或逻辑推理，难以评估模型在多次视觉证据收集与整合中的表现。该数据集通过强制性的组合约束与时空分离的证据要求，填补了长时程、感知密集型推理评估的空白，为诊断模型在视觉信息反复提取、多步骤推理链维护以及错误传播控制等方面的瓶颈提供了标准化测试平台。

实际应用

在实际应用层面，PerceptionComp数据集为开发具备深度视频理解能力的智能系统提供了关键评估工具。这类系统可广泛应用于自动驾驶、机器人导航、智能监控以及增强现实眼镜等领域，其中准确理解动态场景中的复杂事件与对象关系至关重要。通过在该数据集上的性能优化，模型能够更好地处理现实世界中对象密集、运动剧烈且场景多变的视频内容，从而提升在真实环境下的决策准确性与交互智能。

数据集最近研究