Perception Test

Name: Perception Test
Creator: DeepMind
Published: 2023-10-31 02:35:48
License: 暂无描述

arXiv2023-10-31 更新2024-06-21 收录

下载链接：

https://github.com/deepmind/perception_test

下载链接

链接失效反馈

官方服务：

资源简介：

Perception Test是由DeepMind创建的一个新颖的多模态视频基准，旨在评估预训练的多模态模型（如Flamingo、SeViLA或GPT-4）的感知和推理能力。与现有的专注于计算任务（如分类、检测或跟踪）的基准不同，Perception Test侧重于技能（记忆、抽象、物理、语义）和推理类型（描述性、解释性、预测性、反事实），通过视频、音频和文本模态提供全面且高效的评估工具。该基准测试预训练模型在零样本/少量样本或有限微调制度下的转移能力。为此，Perception Test引入了11.6k真实世界视频，平均长度为23秒，设计用于展示感知上有趣的情况，由全球约100名参与者拍摄。视频密集地标注了六种类型的标签（多项选择和基于视频的问题答案、对象和点跟踪、时间动作和声音段），支持语言和非语言评估。训练和验证分割的基准是公开可用的（CC-BY许可证），此外还有一个保留测试分割的挑战服务器。人类基线结果与最先进的视频QA模型相比，性能差距显著（91.4% vs 46.2%），表明多模态视频理解领域有显著的改进空间。数据集、基线代码和挑战服务器可在https://github.com/deepmind/perception_test获取。

Perception Test is a novel multimodal video benchmark developed by DeepMind, aimed at evaluating the perceptual and reasoning abilities of pre-trained multimodal models such as Flamingo, SeViLA or GPT-4. Unlike existing benchmarks that focus on computational tasks including classification, detection and tracking, Perception Test centers on skills (memory, abstraction, physics, semantics) and reasoning types (descriptive, explanatory, predictive, counterfactual), serving as a comprehensive and efficient assessment tool across video, audio and text modalities. It tests the transfer capabilities of pre-trained models under zero-shot, few-shot or limited fine-tuning regimes. To this end, Perception Test introduces 11.6k real-world videos with an average duration of 23 seconds, which are designed to showcase perceptually interesting scenarios and shot by roughly 100 participants across the globe. The videos are densely annotated with six types of labels: multiple-choice and video-based question-answer pairs, object and point tracking, temporal action and sound segments, supporting both linguistic and non-linguistic evaluations. The training and validation splits of the benchmark are publicly accessible under the CC-BY license, along with a challenge server for the held-out test split. Human baseline results reveal a significant performance gap compared to state-of-the-art video QA models (91.4% vs 46.2%), indicating that there is considerable room for improvement in the field of multimodal video understanding. The dataset, baseline code and challenge server are available at https://github.com/deepmind/perception_test.

提供机构：

DeepMind

创建时间：

2023-05-23

搜集汇总

数据集介绍

构建方式

在视频理解领域，现有基准多聚焦于特定计算任务，难以全面评估模型的多模态感知与推理能力。Perception Test的构建采用精心设计的脚本驱动方法，研究团队围绕记忆、抽象、物理和语义四大技能领域，设计了37种脚本及其变体，每种脚本均涵盖描述性、解释性、预测性和反事实推理类型。通过全球约百名参与者使用移动设备拍摄，确保了场景、物品和人员外观的多样性，最终收集了11,609段平均时长23秒的真实世界视频。视频采用密集标注策略，涵盖六类注释：物体与点轨迹、时序动作与声音片段、多项选择与基于视觉基础的视频问答，共计超过76万条标注，形成了多层次、多模态的评估体系。

特点

该数据集的核心特点在于其诊断性与综合性。与侧重于分类、检测等单一任务的传统基准不同，Perception Test旨在系统化评估模型在视频、音频和文本模态上对核心感知技能与推理类型的掌握程度。其标注体系兼具广度与密度，不仅支持物体跟踪、点跟踪等低层空间任务，也支持涉及记忆回溯、物理稳定性判断、反事实推理等高层次语言任务。数据集中刻意引入了干扰对象、对抗性动作（如错误执行任务）以及答案选项的精心设计，有效避免了语言偏见，提升了评估的挑战性与诊断价值。与现有数据集相比，它在技能覆盖与注释密度上具有显著优势。

使用方法

Perception Test主要作为评估基准使用，其数据划分为训练集（约20%）、验证集（约50%）和保留测试集（约30%）。研究鼓励在零样本、少样本或有限微调的制度下评估预训练多模态模型的迁移能力。用户可利用其提供的六类计算任务（如物体跟踪、时序动作定位、视频问答等）对模型进行全面测评。基准代码、基线模型结果及验证集数据已开源，测试集则通过挑战服务器进行评估。该设计允许研究者高效比较不同模型架构与训练策略在通用感知能力上的差距，其显著的人机性能差距（人类91.4% vs 先进模型46.2%）为未来研究指明了明确的改进方向。

背景与挑战

背景概述

Perception Test 是由 DeepMind 团队于 2023 年提出的一项创新性多模态视频基准测试，旨在系统评估预训练多模态模型在感知与推理方面的综合能力。该数据集包含约 1.16 万条平均长度为 23 秒的真实世界视频，由全球约 100 名参与者拍摄，覆盖了记忆、抽象、物理和语义四大技能领域，并融合了描述性、解释性、预测性和反事实推理四种推理类型。通过密集标注六类标签（对象与点轨迹、动作与声音片段、多项选择与基于视频的问答），Perception Test 不仅填补了现有基准在跨模态综合评估上的空白，还为推动通用感知模型的发展提供了重要的诊断工具。

当前挑战

Perception Test 面临的挑战主要体现在两个方面：在领域问题层面，该数据集旨在解决多模态视频理解中模型对复杂感知技能的泛化能力不足问题，例如当前先进模型在零样本或少样本设置下的表现远低于人类基线（46.2% 对比 91.4%），尤其在反事实推理、物理守恒等任务上存在显著差距。在构建过程中，挑战包括设计能够全面覆盖技能与推理类型的视频脚本，确保参与者和场景的多样性以增强数据代表性，以及协调多类密集标注（如对象轨迹、点跟踪、时序动作等）的收集与校验，这些都需要精细的流程设计和质量控制来保证数据的一致性与可靠性。

常用场景

经典使用场景

在视频理解与多模态智能研究领域，Perception Test 被广泛用作诊断性评估基准，专门用于系统性地检验预训练多模态模型在真实世界视频中的感知与推理能力。该数据集通过精心设计的视频脚本，覆盖记忆、抽象、物理和语义四大技能领域，并结合描述性、解释性、预测性和反事实四种推理类型，为模型提供了多维度的能力测评框架。研究者通常利用其多任务标注体系，在零样本、少样本或微调等不同设定下，评估模型在视频问答、目标跟踪、动作与声音时序定位等任务上的表现，从而深入分析模型在复杂多模态场景中的泛化能力与局限。

衍生相关工作

Perception Test 的发布促进了多模态视频理解领域的一系列经典研究工作。例如，基于其评估框架，研究者对Flamingo、SeViLA等先进视频语言模型进行了系统性能分析，揭示了这些模型在反事实推理、物理预测等任务上的显著不足。同时，该数据集也启发了后续研究针对其标注体系开发新的多任务学习架构，如融合目标跟踪与视频问答的联合建模方法，以及利用其点轨迹标注进行细粒度物理属性推理的模型改进。这些工作共同推动了多模态模型从任务特定向通用感知能力的演进。

数据集最近研究