ellisbrown/TOMATO

Name: ellisbrown/TOMATO
Creator: ellisbrown
Published: 2025-10-12 18:47:45
License: 暂无描述

Hugging Face2025-10-12 更新2025-10-25 收录

下载链接：

https://hf-mirror.com/datasets/ellisbrown/TOMATO

下载链接

链接失效反馈

官方服务：

资源简介：

TOMATO是一个用于评估多模态基础模型（MFMs）视觉时间推理能力的基准数据集。它包括1,484个精心策划的人类注释问题，涉及六个任务：动作计数、方向、旋转、形状和趋势、速度和频率以及视觉线索。数据集包含1,417个视频，包括805个自录制的和生成的视频。数据集旨在系统地检查当前视觉时间推理任务，并提出三个原则和相应的指标：多帧增益、帧顺序敏感性和帧信息差异。

TOMATO is a benchmark for assessing the visual temporal reasoning capabilities of Multimodal Foundation Models (MFMs). It includes 1,484 human-annotated questions spanning six tasks: action count, direction, rotation, shape&trend, velocity&frequency, and visual cues. The dataset consists of 1,417 videos, including 805 self-recorded and -generated videos. TOMATO is designed to systematically examine current visual temporal reasoning tasks, proposing three principles with corresponding metrics: Multi-Frame Gain, Frame Order Sensitivity, and Frame Information Disparity.

提供机构：

ellisbrown

5,000+

优质数据集

54 个

任务类型

进入经典数据集