five

ellisbrown/TOMATO

收藏
Hugging Face2025-10-12 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/ellisbrown/TOMATO
下载链接
链接失效反馈
官方服务:
资源简介:
TOMATO是一个用于评估多模态基础模型(MFMs)视觉时间推理能力的基准数据集。它包括1,484个精心策划的人类注释问题,涉及六个任务:动作计数、方向、旋转、形状和趋势、速度和频率以及视觉线索。数据集包含1,417个视频,包括805个自录制的和生成的视频。数据集旨在系统地检查当前视觉时间推理任务,并提出三个原则和相应的指标:多帧增益、帧顺序敏感性和帧信息差异。

TOMATO is a benchmark for assessing the visual temporal reasoning capabilities of Multimodal Foundation Models (MFMs). It includes 1,484 human-annotated questions spanning six tasks: action count, direction, rotation, shape&trend, velocity&frequency, and visual cues. The dataset consists of 1,417 videos, including 805 self-recorded and -generated videos. TOMATO is designed to systematically examine current visual temporal reasoning tasks, proposing three principles with corresponding metrics: Multi-Frame Gain, Frame Order Sensitivity, and Frame Information Disparity.
提供机构:
ellisbrown
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作