TOMATO

github2024-11-09 更新2024-11-28 收录

下载链接：

https://github.com/yale-nlp/TOMATO

下载链接

链接失效反馈

官方服务：

资源简介：

TOMATO是一个用于评估多模态基础模型在视频理解中时间推理能力的新型基准数据集。它包含1,484个精心策划的人工标注问题，涵盖6个任务，应用于1,417个视频，包括805个自录和自生成的视频，涉及3个视频场景。

TOMATO is a novel benchmark dataset for evaluating the temporal reasoning capabilities of multimodal foundation models in video understanding. It comprises 1,484 carefully curated manually annotated questions across 6 tasks, applied to 1,417 videos, 805 of which are self-recorded and self-generated, spanning 3 video scenarios.

创建时间：

2024-10-29

原始信息汇总

TOMATO 数据集概述

数据集简介

TOMATO 是一个用于评估多模态基础模型（MFMs）视觉时间推理能力的新型基准数据集。该数据集包含 1,484 个精心策划的人工标注问题，涵盖 6 个任务（即动作计数、方向、旋转、形状与趋势、速度与频率、视觉线索），应用于 1,417 个视频，其中包括 805 个自录和自生成的视频，涵盖 3 个视频场景（即以人为中心、现实世界和模拟场景）。在 805 个自创视频中，应用了编辑技术以纳入反事实场景、复合运动和放大视图，旨在研究这些特征对 MFM 性能的影响。

任务示例

旋转任务：询问乒乓球旋转的方向。
加速度任务：询问物体在视频中的速度模式。
人类手势任务：询问视频中人物对相机的指示。
合成人类任务：询问视频中人物在空中绘制的三角形数量。

数据集结构

视频文件：包含 1,417 个视频，分为三个类别：human、object 和 simulated。
预训练模型：支持多种开源和专有模型的评估。

评估方法

评估脚本：提供 evaluate.py 脚本用于模型评估。
结果解析：使用 parse_result.py 脚本解析模型响应。
分类得分显示：使用 get_categorized_score.py 脚本显示分类得分。

实验结果

多帧增益：评估任务是否可通过单帧解决。
帧顺序敏感性：评估任务对帧顺序的依赖程度。
帧信息奇偶性：评估信息在帧间的分布均匀性。
排行榜：展示各模型在 TOMATO 数据集上的零样本设置下的准确率。

引用

bibtex @misc{shangguan2024tomatoassessingvisualtemporal, title={TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models}, author={Ziyao Shangguan and Chuhan Li and Yuxuan Ding and Yanan Zheng and Yilun Zhao and Tesca Fitzgerald and Arman Cohan}, year={2024}, eprint={2410.23266}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2410.23266}, }

搜集汇总

数据集介绍

构建方式

TOMATO数据集的构建基于对现有基准的深入分析，旨在系统地评估多模态基础模型在视频理解中的时间推理能力。该数据集遵循三个原则：多帧增益、帧顺序敏感性和帧信息差异。通过这些原则，TOMATO数据集包含了1,484个精心策划的人工标注问题，涵盖6个任务，应用于1,417个视频，其中包括805个自录制和生成的视频。这些视频涵盖了三种场景：以人为中心、现实世界和模拟场景。在自创建的视频中，通过编辑引入了反事实场景、复合运动和放大视图，以研究这些特征对多模态基础模型性能的影响。

特点

TOMATO数据集的显著特点在于其对多模态基础模型时间推理能力的严格评估。数据集不仅包含了多样化的视频内容，还通过引入反事实场景、复合运动和放大视图等编辑手段，增加了任务的复杂性和挑战性。此外，数据集的构建遵循多帧增益、帧顺序敏感性和帧信息差异三个原则，确保了评估的全面性和准确性。这些特点使得TOMATO成为评估和提升多模态基础模型在视频理解中时间推理能力的重要工具。

使用方法

使用TOMATO数据集进行评估时，首先需要下载视频数据并解压到指定目录。接着，根据需要安装相应的模型依赖包，并配置API密钥。对于开源模型，需下载并存储在预设目录中。然后，通过运行评估脚本，指定模型名称、推理类型和总帧数等参数，即可开始评估。评估结果可通过解析脚本进行处理，并最终显示分类得分。此外，用户还可以根据需要添加新的模型进行评估，只需在配置文件中添加模型信息，并在生成库中创建相应的评估代码。

背景与挑战

背景概述

TOMATO数据集由耶鲁大学和Allen Institute of AI的研究团队共同创建，旨在评估多模态基础模型在视觉时间推理能力方面的表现。该数据集的核心研究问题在于系统地检验当前视觉时间推理任务的有效性，特别是针对多帧增益、帧顺序敏感性和帧信息差异三个原则进行评估。TOMATO数据集包含了1,484个精心策划的人工标注问题，涵盖6个任务，应用于1,417个视频，其中包括805个自录和自生成的视频。这些视频涵盖了三种视频场景：以人为中心、现实世界和模拟场景。通过引入反事实场景、复合运动和放大视图等编辑手段，TOMATO数据集旨在深入研究这些特征对多模态基础模型性能的影响。

当前挑战

TOMATO数据集在构建过程中面临多项挑战。首先，如何确保视频和问题的多样性以全面评估模型的视觉时间推理能力是一个重要问题。其次，数据集的构建需要大量的视频编辑工作，以引入反事实场景和复合运动等复杂特征，这增加了数据集的制作难度。此外，评估模型的性能时，如何准确地解析和分类模型的响应也是一个技术挑战。最后，尽管GPT-4o在单个时间步的推理能力上表现出色，但在整体序列的推理上仍存在不足，这表明模型在连续帧的解释和推理上仍有待提高。

常用场景

经典使用场景

TOMATO数据集的经典使用场景在于评估多模态基础模型（MFMs）在视频理解中的视觉时间推理能力。通过精心设计的1,484个问题和1,417个视频，涵盖了六个任务（如动作计数、方向、旋转、形状与趋势、速度与频率、视觉线索），TOMATO数据集能够系统地测试模型在多帧信息处理、帧顺序敏感性和帧信息差异等方面的表现。

解决学术问题

TOMATO数据集解决了当前多模态基础模型在视觉时间推理能力评估中存在的过高估计问题。通过引入多帧增益、帧顺序敏感性和帧信息差异等原则，TOMATO能够更准确地衡量模型在连续帧序列中的推理能力，从而为学术界提供了一个更为严谨的评估基准，推动了多模态模型在视频理解领域的研究进展。

衍生相关工作

TOMATO数据集的推出激发了大量相关研究工作，特别是在多模态基础模型的视觉时间推理能力评估和改进方面。例如，基于TOMATO的评估结果，研究者们提出了多种优化模型结构和训练策略的方法，以提高模型在连续帧序列中的推理准确性。此外，TOMATO还促进了跨学科的合作，推动了计算机视觉、自然语言处理和机器学习等领域的融合研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集