AoTBench

github2025-07-03 更新2025-07-11 收录

下载链接：

https://github.com/zihuixue/seeAoT

下载链接

链接失效反馈

官方服务：

资源简介：

我们提出了AoTBench，这是第一个专门用于评估时间方向敏感性的基准测试，通过三个不同的元素来评估鲁棒视频感知的核心组件。

We introduce AoTBench, the first benchmark specifically designed to evaluate the temporal direction sensitivity, assessing the core components of robust video perception through three distinct elements.

创建时间：

2025-07-03

原始信息汇总

Seeing the Arrow of Time in Large Multimodal Models 数据集概述

基本信息

论文标题: Seeing the Arrow of Time in Large Multimodal Models
作者: Zihui Xue, Mi Luo, Kristen Grauman
发表年份: 2025
论文链接: https://arxiv.org/pdf/2506.03340
项目页面: https://vision.cs.utexas.edu/projects/SeeAoT/

数据集详情

数据集名称: AoTBench
数据集描述: AoTBench是首个专门用于评估时间方向敏感性的基准测试，包含三个不同的组成部分，是稳健视频感知的核心组件。
数据集下载地址: https://huggingface.co/datasets/sherryxzh/AoTBench

评估方法

环境设置: 需按照Qwen2.5-VL仓库的说明进行环境设置。
依赖安装: bash pip install transformers==4.51.3 accelerate pip install qwen-vl-utils[decord]
推理: 提供ArrowRL-enhanced Qwen2.5-VL-7B模型检查点，可通过运行bash scripts/eval.sh进行基准测试和增强模型的评估。默认评估设置为16帧，结果可通过eval/read_qa.py读取。

模型资源

模型检查点: ArrowRL-Qwen2.5-VL-7B
模型下载地址: https://huggingface.co/sherryxzh/ArrowRL-Qwen2.5-VL-7B

引用

如需引用，请使用以下BibTeX条目： bibtex @article{xue2025seeing, title={Seeing the Arrow of Time in Large Multimodal Models}, author={Xue, Zihui and Luo, Mi and Grauman, Kristen}, journal={arXiv preprint arXiv:2506.03340}, year={2025} }

搜集汇总

数据集介绍

构建方式

在视频感知研究领域，时间方向敏感性是理解动态场景的核心能力。AoTBench作为首个专注于评估时间方向敏感性的基准数据集，其构建过程采用了多模态数据融合策略。研究者通过精心设计的三元组结构（正向序列、逆向序列和干扰序列），构建了包含丰富时序关系的视频片段集合。每个数据样本均经过严格的时序标注和一致性验证，确保时间箭头的方向性特征得到准确捕捉。数据集采用分层抽样方法覆盖多样化的场景和动作类别，以全面评估模型对时间流向的感知能力。

使用方法

使用AoTBench进行模型评估需要遵循标准化的测试流程。研究者需首先配置基于Qwen2.5-VL框架的评估环境，安装指定版本的依赖库。数据集支持通过Hugging Face平台直接获取，下载后需放置在指定目录结构下。评估脚本提供了标准化的测试接口，支持基线模型和增强模型的对比测试。结果解析采用专门的QA读取模块，可生成包含时序准确率、干扰抵抗率等核心指标的报告。为保障结果可比性，建议严格保持16帧的默认评估设置，并使用提供的标准解析工具进行数据分析。

背景与挑战

背景概述

AoTBench是由德克萨斯大学奥斯汀分校的Zihui Xue、Mi Luo和Kristen Grauman于2025年提出的首个专注于评估时间方向敏感性的基准数据集。该数据集旨在解决大规模多模态模型在视频感知中对时间方向理解的核心问题，填补了该领域专用评估工具的空白。作为计算机视觉与时间序列分析交叉领域的重要资源，AoTBench通过精心设计的三个评估维度，为提升模型对时间箭头的感知能力提供了标准化测试平台，对推动视频理解技术的发展具有显著意义。

当前挑战

构建AoTBench面临双重挑战：在领域问题层面，视频时序方向识别需要克服动态场景中复杂时空关系的建模难题，传统方法难以准确捕捉时间不对称特征；在数据集构建层面，如何设计具有判别力的时序测试案例，平衡场景多样性与评估有效性，以及处理大规模视频数据的标注一致性，都是需要解决的关键技术难点。这些挑战直接影响了模型对时间方向敏感性的评估信度与效度。

常用场景

经典使用场景

AoTBench作为首个专注于评估时间方向敏感性的基准测试，其经典使用场景主要集中于视频感知领域。在视频内容理解任务中，研究人员通过该数据集能够系统地测试大型多模态模型对时间箭头的感知能力，从而揭示模型在时序推理方面的性能瓶颈。该数据集通过精心设计的三个评估维度，为模型在动态视觉场景中的因果推理提供了标准化测试平台。

解决学术问题

AoTBench有效解决了多模态时序建模中的关键科学问题。传统视频理解研究往往忽视时间方向性的建模，而该数据集通过引入时间箭头敏感性评估，填补了时序因果推理的评估空白。其创新性的评估框架为提升模型对物理世界动态过程的理解能力提供了量化标准，推动了视频理解从静态特征提取向动态因果推理的范式转变。

实际应用

在实际应用层面，AoTBench对智能视频分析系统的发展具有重要价值。基于该数据集开发的时序敏感模型可显著提升监控视频异常检测、体育赛事动作分析以及医疗影像时序诊断等场景的准确率。特别是在自动驾驶领域，对交通场景中时序因果关系的准确理解直接关系到行车决策的安全性，AoTBench为此类关键应用提供了可靠的评估工具。

数据集最近研究