InstructionBench

Name: InstructionBench
Creator: 西安交通大学软件工程学院, 美团点评股份有限公司
Published: 2025-04-07 21:05:09
License: 暂无描述

arXiv2025-04-07 更新2025-04-09 收录

下载链接：

http://arxiv.org/abs/2504.05040v1

下载链接

链接失效反馈

官方服务：

资源简介：

InstructionBench是一个专注于指导性视频理解的评估基准，它挑战模型在指导性视频中高级时间推理的能力。该数据集由超过700个视频中的5000个问答对组成，通过自动化的问答生成和过滤框架构建而成，旨在丰富社区的研究资源。数据集的内容涵盖了从 coarse-grained（事件级别）到fine-grained（对象级别）的时间推理任务，包括对动作序列的识别和具体活动的推理。

InstructionBench is an evaluation benchmark focused on instructional video understanding, which challenges models in their advanced temporal reasoning capabilities within instructional videos. Comprised of over 5,000 question-answer pairs from more than 700 videos, the dataset is constructed through an automated question generation and filtering framework, aiming to enrich the research resources of the community. The content of the dataset spans temporal reasoning tasks from coarse-grained (event-level) to fine-grained (object-level), including the recognition of action sequences and the inference of specific activities.

提供机构：

西安交通大学软件工程学院, 美团点评股份有限公司

创建时间：

2025-04-07

搜集汇总

数据集介绍

构建方式

InstructionBench的构建采用了多源教学视频数据集，包括YouCook2、HiREST、Ego4D Goal-Step和Ego-Exo4D，以确保多样性和高质量标注。通过GPT-4生成问答对，结合视频步骤注释和时间戳，设计了粗粒度（事件级）和细粒度（对象级）两类问题，以评估模型的时间推理能力。生成过程中采用了严格的过滤策略，包括盲问题过滤、幻觉问题过滤、复杂问题过滤以及不完整答案过滤，确保问答对的质量和相关性。最终，数据集包含来自700多个视频的5,000个问答对。

特点

InstructionBench专注于教学视频的时间推理能力评估，其特点在于问题设计的层次性和多样性。粗粒度问题关注动作序列和特定活动，要求模型识别并排序关键动作；细粒度问题则聚焦于对象及其与动作时间线的关联。数据集通过多阶段过滤确保问题依赖于视觉分析而非常识知识，从而突出了对视觉推理能力的挑战。此外，数据集还提供了开放式和多项选择两种问答格式，便于不同场景下的模型评估。

使用方法

InstructionBench的使用方法主要包括模型评估和训练数据增强。在评估阶段，研究人员可以利用数据集中的多项选择或开放式问题测试视频大语言模型（Video-LLMs）的时间推理能力。通过输入不同帧数的视频，可以进一步分析模型对多帧信息的处理能力。在训练阶段，数据集的19k问答对可用于微调模型，提升其在教学视频理解任务上的表现。使用过程中需注意数据集的层次性问题设计，确保模型在粗粒度和细粒度任务上的全面评估。

背景与挑战

背景概述

InstructionBench是由西安交通大学软件工程学院和美图公司联合推出的教学视频理解基准测试数据集，旨在解决当前视频大语言模型（Video-LLMs）在教学视频理解领域的不足。该数据集创建于2025年，核心研究问题聚焦于提升模型在严格按步骤进行的教学视频中的高级时间推理能力。通过采用GPT-4生成开放式和多项选择形式的问答对，InstructionBench评估了粗粒度事件级和细粒度对象级的推理能力。该数据集包含来自700多个视频的5,000个问题，并通过过滤策略排除了仅凭常识知识即可回答的问题，从而确保评估集中在视觉感知和分析上。InstructionBench的推出为教学视频理解领域提供了重要的研究资源，推动了相关技术的发展。

当前挑战

InstructionBench面临的挑战主要包括两个方面：首先，在教学视频理解领域，模型需要具备强大的时间推理能力，以解析和理解严格的步骤流程，而现有模型在这一任务上的表现仍有显著差距，即使是表现最好的GPT-4o模型，其准确率也仅为53.42%。其次，在数据集的构建过程中，研究人员需要克服生成高质量问答对的挑战，包括避免常识性问题的干扰、排除与视频注释无关的问题以及处理复杂或模糊的问题。此外，确保问答对的多样性和覆盖范围，同时保持问题的可管理性和可回答性，也是构建过程中的重要挑战。

常用场景

经典使用场景

InstructionBench作为首个专注于教学视频时序推理的基准测试，其核心应用场景在于系统性评估视频大语言模型（Video-LLMs）对程序性知识的解析能力。该数据集通过构建包含粗粒度事件级和细粒度对象级的5,000个问答对，模拟真实教学场景中步骤预测、动作序列重建等复杂任务，为模型在烹饪指导、设备维修等需要严格时序理解的领域提供标准化测试平台。其特有的盲问题过滤机制有效避免了常识知识对视觉推理评估的干扰，使实验结果更具区分度。

解决学术问题

该数据集解决了教学视频理解领域三大关键问题：一是填补了现有基准测试在高级时序推理评估上的空白，通过设计未来步骤预测、对象交互识别等8类任务，系统检验模型对程序逻辑的把握能力；二是突破了传统数据集对常识知识的依赖，采用多AI助理协同过滤策略，确保问题必须通过视觉分析才能解答；三是建立了首个融合第一人称与第三人称视角的教学视频评估体系，通过整合Ego4D和YouCook2等异构数据源，提升了模型视角适应性的研究深度。实验表明当前最优模型GPT-4o准确率仅53.42%，揭示了时序推理仍是亟待突破的研究难点。

衍生相关工作

该数据集推动了多项视频理解技术的革新：其数据构建方法启发了TimeChat的空白填充任务设计，促进长视频理解研究；评估框架被MVBench等多模态基准借鉴用于时空建模能力测试；提出的盲问题过滤机制被VideoVista改进为跨模态一致性验证方案。基于InstructionBench训练的LLaMA-VID+模型在步骤预测任务上提升9个百分点，验证了其衍生价值。相关成果还促进了VideoLLaMA2时空卷积连接器等新型架构的研发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集