five

TOMATO

收藏
Hugging Face2025-05-31 更新2025-06-01 收录
下载链接:
https://huggingface.co/datasets/lmms-lab/TOMATO
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含问题、选项、答案和相关视频路径等信息,适用于问题回答和视频理解任务。测试集共有1484个示例,数据集大小为339634字节。
创建时间:
2025-05-30
原始信息汇总

数据集概述:TOMATO

基本信息

  • 数据集名称:TOMATO
  • 托管平台:Hugging Face
  • 数据集地址:https://huggingface.co/datasets/lmms-lab/TOMATO

数据集结构

特征字段

  • id:整型(int32),唯一标识符
  • question:字符串(string),问题描述
  • options:字符串序列(sequence of string),选项列表
  • answer:整型(int32),正确答案索引
  • video_path:字符串(string),视频路径
  • reason_type:字符串(string),推理类型
  • demonstration_type:字符串(string),演示类型

数据划分

  • test:测试集
    • 样本数量:1484
    • 数据大小:339634字节

下载信息

  • 下载大小:40585字节
  • 数据集总大小:339634字节

配置文件

  • 默认配置(default)
    • 数据文件路径data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在视频推理领域,TOMATO数据集的构建采用了严谨的多模态数据采集方法。该数据集通过整合视觉与文本信息,精心设计了涵盖多种推理类型的问题。每个样本均包含视频路径、问题描述、选项列表及标准答案,并标注了推理类型与演示类别,确保了数据结构的完整性与逻辑一致性。构建过程中注重样本的多样性与平衡性,为复杂推理任务提供了高质量的基础数据。
特点
TOMATO数据集的显著特点在于其多维度的标注体系与丰富的推理场景覆盖。数据集包含1484个测试样本,每个样本均具备问题、选项、答案及对应的视频路径,并细化了推理类型与演示类型标签。这种设计不仅支持传统的视觉问答任务,还能促进对因果推理、时序分析等高级认知能力的研究。数据的紧凑性与标注粒度使其成为多模态推理领域的理想基准。
使用方法
使用TOMATO数据集时,研究者可通过加载标准的测试分割数据开展多模态推理实验。数据以结构化格式存储,包含视频路径与文本问题的对应关系,用户需结合视觉模型与语言模型进行联合分析。典型应用包括视频问答、推理类型分类等任务,通过解析问题选项与答案的关联性,可评估模型在复杂场景下的逻辑推理能力。数据集的轻量级设计便于快速部署与迭代实验。
背景与挑战
背景概述
TOMATO数据集作为视频推理领域的重要资源,由研究团队于2023年推出,旨在深化对动态视觉内容的理解机制探索。该数据集聚焦于多选问答任务,通过结合视频片段与文本问题,推动人工智能在因果推理、时序分析等方面的能力边界。其构建体现了计算机视觉与自然语言处理的交叉融合,为模型泛化性和逻辑推理研究提供了标准化基准,对自动驾驶、智能监控等应用具有显著影响力。
当前挑战
视频推理任务面临的核心挑战在于建模时空依赖性,需同时解析物体运动、场景转换与事件逻辑的复杂交互。数据构建过程中,标注者必须精确捕捉视频中的因果链与时序关系,确保选项设计涵盖显性与隐性推理维度。此外,多模态对齐的难度要求视频路径与文本问题间保持语义一致性,避免标注偏差对模型评估产生干扰。
常用场景
经典使用场景
在视频推理领域,TOMATO数据集为评估模型的多模态理解能力提供了标准化基准。该数据集通过包含视频路径、问题及多选项的问答形式,促使模型结合视觉内容进行因果和时序推理。研究者通常利用它测试模型在识别动作、物体交互及事件逻辑方面的表现,尤其在需要理解视频中复杂动态场景的任务中,TOMATO成为验证模型泛化能力的重要工具。
实际应用
在实际应用中,TOMATO数据集为智能监控、自动驾驶等领域的决策系统提供了验证基础。例如,在安防场景中,模型需根据视频片段推断异常事件的成因;在自动驾驶系统中,则需理解交通参与者的行为意图。TOMATO的多样化推理任务能够模拟这些现实需求,帮助提升系统在动态环境中的逻辑判断能力。
衍生相关工作
围绕TOMATO数据集,已衍生出多项聚焦视频推理的经典研究。例如,部分工作基于其推理类型标签开发了分层评估框架,区分模型在低级感知与高级推理任务上的表现;另一些研究则利用多选项机制设计了对抗性样本生成方法,以增强模型的鲁棒性。这些成果进一步丰富了视频理解领域的评估范式与方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作