Implicit-VidSRL
收藏arXiv2025-05-27 更新2025-05-30 收录
下载链接:
https://anilbatra2185.github.io/p/ividsrl/
下载链接
链接失效反馈官方服务:
资源简介:
Implicit-VidSRL数据集由爱丁堡大学和达姆施塔特工业大学联合创建,旨在帮助AI更好地理解和推理程序视频中的上下文和动作序列。该数据集包含231个视频,每个视频都包含多步骤的烹饪说明,并标注了显式和隐式论元,以帮助模型学习如何从视觉和文本上下文中推断出这些隐式论元。数据集的创建过程包括三个阶段:识别隐式实体、将多步骤指令转换为语义角色标签、手动校正自动生成的标签。该数据集可用于评估多模态模型的上下文推理能力和实体跟踪能力,旨在解决多模态程序数据中隐式论元预测的问题。
提供机构:
爱丁堡大学, 英国; 达姆施塔特工业大学 & hessian.AI, 德国
创建时间:
2025-05-27
搜集汇总
数据集介绍

构建方式
Implicit-VidSRL数据集通过多模态烹饪视频构建,结合YouCook2和Tasty数据集的验证集与测试集视频,筛选时长30秒至10分钟且包含至少4个指令的视频。数据标注分为三个阶段:首先由语言学背景的标注员识别显式和隐式实体;随后利用GPT-4o自动生成语义角色标注(SRL),格式为{动词, 受事, 处所/工具}三元组;最后人工修正标注以确保隐式参数的准确性。标注过程特别关注烹饪原料的隐式关联,如步骤间省略的食材指代。
特点
该数据集包含231个视频,涵盖158种独特动词和805个实体,平均每个视频含7.47个步骤和11.02个SRL标注。核心特点是显式与隐式参数的混合标注,其中隐式参数占比显著(what角色平均含6.29个隐式实体)。数据采用多模态形式,既包含视频片段的时间戳信息,也提供自然语言指令,支持对烹饪过程中实体状态变化的跨模态推理。此外,54%的where/with角色为空,凸显了上下文推理的挑战性。
使用方法
数据集支持两种任务:语义角色预测和下一步骤预测。语义角色预测采用完形填空形式,给定动词后预测缺失的what和where/with参数;下一步骤预测则需生成完整的语义框架及自然语言指令。评估时结合F1分数(参数识别)、动词召回率(步骤预测)和BLEU/METEOR(文本生成)指标。使用时可选择纯文本、纯视频或多模态输入,建议通过链式思维提示或微调iSRL-Qwen2-VL模型提升隐式参数推理能力,该模型在跨模态输入时F1分数较GPT-4o提升17%。
背景与挑战
背景概述
Implicit-VidSRL数据集由爱丁堡大学和达姆施塔特工业大学的研究团队于2025年提出,旨在解决程序性视频理解中的隐式论元推理问题。该数据集基于烹饪教学视频,通过语义角色标注(SRL)框架{verb, what, where/with}显式建模步骤间的隐式关联,例如从“将黄瓜加入碗中”推断后续步骤“加入番茄”的隐式位置论元。作为首个融合多模态上下文(视觉与文本)的SRL基准,其231个视频涵盖YouCook2和Tasty数据集,平均每个语义帧包含6.29个隐式实体,显著推动了视频语义解析和实体追踪研究的发展。
当前挑战
该数据集面临双重挑战:领域问题层面,现有SRL模型难以处理程序性文本的高省略特性,如跨模态(视觉-语言)的隐式论元推理,GPT-4o在what-implicit论元预测上F1值仅为45.5%;构建层面需解决多阶段标注一致性难题——先由语言学专家标注隐式实体,再通过GPT-4o生成银标数据并人工校验,其中食材状态变化(如切块后的黄瓜)的跨帧追踪尤为困难。此外,模型需同步处理视频动态特征与语言指代消解,iSRL-Qwen2-VL虽将隐式论元F1提升17%,但长时序实体追踪仍落后人类表现14.7%。
常用场景
经典使用场景
在烹饪教学视频的多模态理解领域,Implicit-VidSRL数据集通过语义角色标注(SRL)框架,系统性地捕捉了显式和隐式论元。该数据集的核心应用场景在于解析高度省略的烹饪指令,例如从“将黄瓜加入碗中”和“加入切好的番茄”这类序列中,推断第二个步骤的隐式位置论元(即黄瓜先前被放置的碗)。通过结合视觉与文本上下文,该数据集为模型提供了追踪实体状态变化(如食材切块后形态改变)的基准测试环境。
解决学术问题
该数据集解决了程序性视频理解中的关键学术问题:传统SRL基准对隐式论元标注的缺失导致语义不完整。通过引入{动词,作用对象,位置/工具}三元组标注体系,Implicit-VidSRL首次实现了对跨模态时序上下文中隐式实体的系统化建模。其提出的填空任务和下一步预测任务,为评估模型在长时序依赖下的语境推理能力提供了量化指标,弥补了现有数据集在烹饪领域动态实体追踪方面的空白。
衍生相关工作
基于Implicit-VidSRL衍生的iSRL-Qwen2-VL模型开创了银标准标注微调范式,在隐式论元预测任务上相对GPT-4o提升17%的F1值。该工作推动了Video-LLM在程序性视频理解中的发展,后续研究如SOKBench和TempCompass均借鉴其多模态实体追踪框架。其标注体系更被拓展至装配指导视频解析,形成跨领域的时序推理基准。
以上内容由遇见数据集搜集并总结生成



