Implicit-VidSRL

Name: Implicit-VidSRL
Creator: 爱丁堡大学, 英国; 达姆施塔特工业大学 & hessian.AI, 德国
Published: 2025-05-27 19:53:06
License: 暂无描述

arXiv2025-05-27 更新2025-05-30 收录

下载链接：

https://anilbatra2185.github.io/p/ividsrl/

下载链接

链接失效反馈

官方服务：

资源简介：

Implicit-VidSRL数据集由爱丁堡大学和达姆施塔特工业大学联合创建，旨在帮助AI更好地理解和推理程序视频中的上下文和动作序列。该数据集包含231个视频，每个视频都包含多步骤的烹饪说明，并标注了显式和隐式论元，以帮助模型学习如何从视觉和文本上下文中推断出这些隐式论元。数据集的创建过程包括三个阶段：识别隐式实体、将多步骤指令转换为语义角色标签、手动校正自动生成的标签。该数据集可用于评估多模态模型的上下文推理能力和实体跟踪能力，旨在解决多模态程序数据中隐式论元预测的问题。

提供机构：

爱丁堡大学, 英国; 达姆施塔特工业大学 & hessian.AI, 德国

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

Implicit-VidSRL数据集通过多模态烹饪视频构建，结合YouCook2和Tasty数据集的验证集与测试集视频，筛选时长30秒至10分钟且包含至少4个指令的视频。数据标注分为三个阶段：首先由语言学背景的标注员识别显式和隐式实体；随后利用GPT-4o自动生成语义角色标注（SRL），格式为{动词, 受事, 处所/工具}三元组；最后人工修正标注以确保隐式参数的准确性。标注过程特别关注烹饪原料的隐式关联，如步骤间省略的食材指代。

特点

该数据集包含231个视频，涵盖158种独特动词和805个实体，平均每个视频含7.47个步骤和11.02个SRL标注。核心特点是显式与隐式参数的混合标注，其中隐式参数占比显著（what角色平均含6.29个隐式实体）。数据采用多模态形式，既包含视频片段的时间戳信息，也提供自然语言指令，支持对烹饪过程中实体状态变化的跨模态推理。此外，54%的where/with角色为空，凸显了上下文推理的挑战性。

使用方法

数据集支持两种任务：语义角色预测和下一步骤预测。语义角色预测采用完形填空形式，给定动词后预测缺失的what和where/with参数；下一步骤预测则需生成完整的语义框架及自然语言指令。评估时结合F1分数（参数识别）、动词召回率（步骤预测）和BLEU/METEOR（文本生成）指标。使用时可选择纯文本、纯视频或多模态输入，建议通过链式思维提示或微调iSRL-Qwen2-VL模型提升隐式参数推理能力，该模型在跨模态输入时F1分数较GPT-4o提升17%。

背景与挑战

背景概述

Implicit-VidSRL数据集由爱丁堡大学和达姆施塔特工业大学的研究团队于2025年提出，旨在解决程序性视频理解中的隐式论元推理问题。该数据集基于烹饪教学视频，通过语义角色标注（SRL）框架{verb, what, where/with}显式建模步骤间的隐式关联，例如从“将黄瓜加入碗中”推断后续步骤“加入番茄”的隐式位置论元。作为首个融合多模态上下文（视觉与文本）的SRL基准，其231个视频涵盖YouCook2和Tasty数据集，平均每个语义帧包含6.29个隐式实体，显著推动了视频语义解析和实体追踪研究的发展。

当前挑战

该数据集面临双重挑战：领域问题层面，现有SRL模型难以处理程序性文本的高省略特性，如跨模态（视觉-语言）的隐式论元推理，GPT-4o在what-implicit论元预测上F1值仅为45.5%；构建层面需解决多阶段标注一致性难题——先由语言学专家标注隐式实体，再通过GPT-4o生成银标数据并人工校验，其中食材状态变化（如切块后的黄瓜）的跨帧追踪尤为困难。此外，模型需同步处理视频动态特征与语言指代消解，iSRL-Qwen2-VL虽将隐式论元F1提升17%，但长时序实体追踪仍落后人类表现14.7%。

常用场景

经典使用场景

在烹饪教学视频的多模态理解领域，Implicit-VidSRL数据集通过语义角色标注（SRL）框架，系统性地捕捉了显式和隐式论元。该数据集的核心应用场景在于解析高度省略的烹饪指令，例如从“将黄瓜加入碗中”和“加入切好的番茄”这类序列中，推断第二个步骤的隐式位置论元（即黄瓜先前被放置的碗）。通过结合视觉与文本上下文，该数据集为模型提供了追踪实体状态变化（如食材切块后形态改变）的基准测试环境。

解决学术问题

该数据集解决了程序性视频理解中的关键学术问题：传统SRL基准对隐式论元标注的缺失导致语义不完整。通过引入{动词,作用对象,位置/工具}三元组标注体系，Implicit-VidSRL首次实现了对跨模态时序上下文中隐式实体的系统化建模。其提出的填空任务和下一步预测任务，为评估模型在长时序依赖下的语境推理能力提供了量化指标，弥补了现有数据集在烹饪领域动态实体追踪方面的空白。

衍生相关工作

基于Implicit-VidSRL衍生的iSRL-Qwen2-VL模型开创了银标准标注微调范式，在隐式论元预测任务上相对GPT-4o提升17%的F1值。该工作推动了Video-LLM在程序性视频理解中的发展，后续研究如SOKBench和TempCompass均借鉴其多模态实体追踪框架。其标注体系更被拓展至装配指导视频解析，形成跨领域的时序推理基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集