Implicit-VidSRL

Name: Implicit-VidSRL
Creator: 爱丁堡大学, 英国; 达姆施塔特工业大学 & hessian.AI, 德国
Published: 2025-05-27 19:53:06
License: 暂无描述

arXiv2025-05-27 更新2025-05-30 收录

下载链接：

https://anilbatra2185.github.io/p/ividsrl/

下载链接

链接失效反馈

官方服务：

资源简介：

Implicit-VidSRL数据集由爱丁堡大学和达姆施塔特工业大学联合创建，旨在帮助AI更好地理解和推理程序视频中的上下文和动作序列。该数据集包含231个视频，每个视频都包含多步骤的烹饪说明，并标注了显式和隐式论元，以帮助模型学习如何从视觉和文本上下文中推断出这些隐式论元。数据集的创建过程包括三个阶段：识别隐式实体、将多步骤指令转换为语义角色标签、手动校正自动生成的标签。该数据集可用于评估多模态模型的上下文推理能力和实体跟踪能力，旨在解决多模态程序数据中隐式论元预测的问题。

The Implicit-VidSRL dataset was jointly developed by the University of Edinburgh and Technische Universität Darmstadt, with the goal of enabling AI to better understand and reason about contexts and action sequences in procedural cooking videos. It contains 231 videos, each featuring multi-step cooking instructions, and is annotated with both explicit and implicit arguments to help models learn to infer these implicit arguments from both visual and textual contexts. The dataset construction process consists of three stages: identifying implicit entities, converting multi-step instructions into semantic role labels, and manually correcting automatically generated labels. This dataset can be utilized to evaluate the contextual reasoning and entity tracking abilities of multimodal models, and is intended to address the problem of implicit argument prediction in multimodal procedural data.

提供机构：

爱丁堡大学, 英国; 达姆施塔特工业大学 & hessian.AI, 德国

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

Implicit-VidSRL数据集通过多模态烹饪视频构建，结合YouCook2和Tasty数据集的验证集与测试集视频，筛选时长30秒至10分钟且包含至少4个指令的视频。数据标注分为三个阶段：首先由语言学背景的标注员识别显式和隐式实体；随后利用GPT-4o自动生成语义角色标注（SRL），格式为{动词, 受事, 处所/工具}三元组；最后人工修正标注以确保隐式参数的准确性。标注过程特别关注烹饪原料的隐式关联，如步骤间省略的食材指代。

特点

该数据集包含231个视频，涵盖158种独特动词和805个实体，平均每个视频含7.47个步骤和11.02个SRL标注。核心特点是显式与隐式参数的混合标注，其中隐式参数占比显著（what角色平均含6.29个隐式实体）。数据采用多模态形式，既包含视频片段的时间戳信息，也提供自然语言指令，支持对烹饪过程中实体状态变化的跨模态推理。此外，54%的where/with角色为空，凸显了上下文推理的挑战性。

使用方法

数据集支持两种任务：语义角色预测和下一步骤预测。语义角色预测采用完形填空形式，给定动词后预测缺失的what和where/with参数；下一步骤预测则需生成完整的语义框架及自然语言指令。评估时结合F1分数（参数识别）、动词召回率（步骤预测）和BLEU/METEOR（文本生成）指标。使用时可选择纯文本、纯视频或多模态输入，建议通过链式思维提示或微调iSRL-Qwen2-VL模型提升隐式参数推理能力，该模型在跨模态输入时F1分数较GPT-4o提升17%。

背景与挑战

背景概述

Implicit-VidSRL数据集由爱丁堡大学和达姆施塔特工业大学的研究团队于2025年提出，旨在解决程序性视频理解中的隐式论元推理问题。该数据集基于烹饪教学视频，通过语义角色标注（SRL）框架{verb, what, where/with}显式建模步骤间的隐式关联，例如从“将黄瓜加入碗中”推断后续步骤“加入番茄”的隐式位置论元。作为首个融合多模态上下文（视觉与文本）的SRL基准，其231个视频涵盖YouCook2和Tasty数据集，平均每个语义帧包含6.29个隐式实体，显著推动了视频语义解析和实体追踪研究的发展。

当前挑战

该数据集面临双重挑战：领域问题层面，现有SRL模型难以处理程序性文本的高省略特性，如跨模态（视觉-语言）的隐式论元推理，GPT-4o在what-implicit论元预测上F1值仅为45.5%；构建层面需解决多阶段标注一致性难题——先由语言学专家标注隐式实体，再通过GPT-4o生成银标数据并人工校验，其中食材状态变化（如切块后的黄瓜）的跨帧追踪尤为困难。此外，模型需同步处理视频动态特征与语言指代消解，iSRL-Qwen2-VL虽将隐式论元F1提升17%，但长时序实体追踪仍落后人类表现14.7%。

常用场景

经典使用场景

在烹饪教学视频的多模态理解领域，Implicit-VidSRL数据集通过语义角色标注（SRL）框架，系统性地捕捉了显式和隐式论元。该数据集的核心应用场景在于解析高度省略的烹饪指令，例如从“将黄瓜加入碗中”和“加入切好的番茄”这类序列中，推断第二个步骤的隐式位置论元（即黄瓜先前被放置的碗）。通过结合视觉与文本上下文，该数据集为模型提供了追踪实体状态变化（如食材切块后形态改变）的基准测试环境。

解决学术问题

该数据集解决了程序性视频理解中的关键学术问题：传统SRL基准对隐式论元标注的缺失导致语义不完整。通过引入{动词,作用对象,位置/工具}三元组标注体系，Implicit-VidSRL首次实现了对跨模态时序上下文中隐式实体的系统化建模。其提出的填空任务和下一步预测任务，为评估模型在长时序依赖下的语境推理能力提供了量化指标，弥补了现有数据集在烹饪领域动态实体追踪方面的空白。

衍生相关工作

基于Implicit-VidSRL衍生的iSRL-Qwen2-VL模型开创了银标准标注微调范式，在隐式论元预测任务上相对GPT-4o提升17%的F1值。该工作推动了Video-LLM在程序性视频理解中的发展，后续研究如SOKBench和TempCompass均借鉴其多模态实体追踪框架。其标注体系更被拓展至装配指导视频解析，形成跨领域的时序推理基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集