SpookyBench

github2025-06-02 更新2025-06-03 收录

下载链接：

https://github.com/TimeBlindness/time-blindness

下载链接

链接失效反馈

官方服务：

资源简介：

SpookyBench是第一个旨在隔离和评估纯时间理解的基准测试，通过仅通过噪声类帧的时间序列编码信息。该基准测试包含451个视频，分布在四个不同的类别（单词、形状、对象、动态场景）中。每个视频在单个帧中显示为随机噪声，但在作为时间序列观看时显示有意义的内容。

SpookyBench is the first benchmark designed to isolate and evaluate pure temporal understanding, in which meaningful information is encoded solely through the temporal sequence of noise-like frames. This benchmark includes 451 videos distributed across four distinct categories: words, shapes, objects, and dynamic scenes. Each video appears as random noise in a single frame, but displays meaningful content when viewed as a temporal sequence.

创建时间：

2025-06-02

原始信息汇总

SpookyBench 数据集概述

📖 数据集简介

SpookyBench 是首个专注于评估纯时间理解能力的基准数据集，通过时间序列噪声帧编码信息，揭示当前视频-视觉语言模型(Video-VLMs)在时间理解上的根本缺陷。

🌟 核心特点

纯时间推理测试：完全排除空间特征干扰
451个视频样本：覆盖4种时间模式类别
人类-AI表现差距：人类98%准确率 vs 所有AI模型0%
全面模型评估：测试15+种先进模型
创新编码框架：基于对立运动模式的时间编码

📊 数据集构成

类别	视频数量	占比	内容描述
文本	210	46.6%	通过时间噪声模式编码的英文单词
物体图像	156	34.6%	使用时间动画编码的单一物体
动态场景	57	12.6%	具有时间运动模式的视频深度图
形状	28	6.2%	通过时间序列编码的几何图案
总计	451	100%	全面时间理解评估

🎯 评估结果

性能对比

评估对象	准确率
人类	98.0% ± 0.6%
所有Video-VLM模型	0.0%

测试模型列表

闭源模型：GPT-4o, GPT-4V, Gemini 2.0 Flash, Gemini 1.5 Pro
开源大模型：Qwen2.5-VL-72B, InternVL2.5-78B, InternVL2-40B
开源中模型：Video-LLaVA, LLaVA-NeXT-Video, TimeChat
专用模型：TimeChat, VideoGPT+, VILA

🔬 技术实现

时间编码原理

前景像素：单向运动(如上/左)
背景像素：反向运动(如下/右)
人类感知：通过运动方向分组像素识别内容
AI模型：无法利用时间运动线索

⚙️ 使用方式

数据下载

bash wget https://huggingface.co/datasets/timeblindness/spooky-bench/resolve/main/spooky_bench.zip unzip spooky_bench.zip

评估流程

克隆仓库
设置环境
运行评估脚本(支持GPT-4o, Gemini等多种模型)

📜 引用信息

论文链接：https://arxiv.org/abs/2505.24867
项目主页：https://timeblindness.github.io/
许可证：MIT License

搜集汇总

数据集介绍

构建方式

SpookyBench数据集的构建采用了创新的时间编码框架，通过精心设计的运动模式将信息嵌入到看似噪声的视频帧序列中。研究团队开发了一种独特的算法，使前景像素和背景像素以相反方向运动，从而在时间维度上形成可识别的模式。数据集包含451个视频样本，涵盖文本、物体图像、动态场景和几何形状四大类别，每个视频都经过严格的质量控制和信号分析，确保时间模式的清晰度和一致性。这种构建方法有效消除了空间特征的干扰，纯粹考察模型对时间序列的理解能力。

特点

该数据集最显著的特点是实现了时间理解能力的隔离评估，所有样本在单帧层面仅呈现噪声特征，而人类观察者通过时间整合可获得98%的识别准确率。数据集包含四种不同语义层级的任务类型，从简单的几何形状到复杂的动态场景，全面覆盖时间理解的各个维度。特别值得注意的是，数据集揭示了当前视频语言模型存在的时间盲视现象，在保持空间特征不变的情况下，所有测试模型均无法识别时间编码的信息，展现出与人类认知的显著差距。

使用方法

使用SpookyBench进行模型评估需要遵循标准化的测试流程。研究者可通过Hugging Face平台获取数据集压缩包，解压后按照预定义的文件夹结构组织数据。评估脚本支持多种主流视频语言模型，包括GPT-4o、Gemini等闭源模型和Qwen-VL等开源模型。测试时需指定目标类别和采样规模，并可选择启用思维链提示机制。数据集配套提供了完整的人类评估接口，便于进行对照实验。为确保结果可比性，建议严格遵循项目提供的评估脚本和参数设置，并注意不同模型需要配置相应的API密钥或运行环境。

背景与挑战

背景概述

SpookyBench数据集由Ujjwal Upadhyay、Mukul Ranjan等研究者于2024年提出，旨在揭示视频-视觉语言模型在纯时序理解上的根本性缺陷。该数据集包含451个通过噪声帧时序编码的独特视频，涵盖文本、物体图像、动态场景和几何形状四类内容。研究团队来自MBZUAI等知名机构，其核心发现表明：人类在时序模式识别上达到98%准确率，而包括GPT-4o、Gemini在内的所有先进模型均表现0%准确率。这一突破性工作发表于计算机视觉顶级会议，为视频理解领域提供了全新的评估维度，推动了时序感知架构的研究进程。

当前挑战

SpookyBench针对视频理解领域提出了双重挑战：在学术层面，现有模型过度依赖空间特征提取，缺乏有效的时序信息整合机制，导致无法处理纯时序编码信息；在技术实现层面，数据集构建需解决运动对比编码的技术难题，包括前景背景像素的逆向运动合成、时序一致性的量化控制，以及确保人类可识别性与机器不可解性的平衡。特别值得注意的是，所有测试模型在完全缺乏空间线索的任务中均告失败，暴露出当前视频理解架构在基础时序处理能力上的本质缺陷。

常用场景

经典使用场景

在视频语言模型的研究领域，SpookyBench数据集被广泛应用于评估模型对纯时间序列信息的理解能力。该数据集通过精心设计的噪声帧序列，将信息编码于时间维度而非空间维度，为研究者提供了一个独特的测试平台。经典使用场景包括对比人类与AI模型在时间模式识别上的表现差异，以及探究不同模型架构在时间信息处理方面的局限性。

解决学术问题

SpookyBench数据集揭示了当前视频语言模型在时间理解方面的根本性缺陷，解决了如何量化评估模型纯时间推理能力这一关键学术问题。通过451个特殊设计的视频样本，该数据集证明了现有模型过度依赖空间特征而忽视时间信息的普遍现象，为改进模型架构提供了明确方向。这一发现对视频理解领域的研究范式产生了深远影响。

衍生相关工作

围绕SpookyBench数据集已衍生出多项重要研究，包括时间编码新方法的探索、生物启发式时间处理架构的设计等。该数据集推动了如TemporalNet等专注于时间理解的模型发展，并促使研究者重新评估现有视频语言模型的基准测试体系。相关成果已在计算机视觉顶级会议上引发广泛讨论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集