SoccerNet, HoloAssist
收藏arXiv2025-05-16 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.11326v1
下载链接
链接失效反馈官方服务:
资源简介:
本研究介绍了一个名为TGLG(时间相关语言生成)的新基准任务,用于评估视觉语言模型在实时交互环境中的感知更新和情境意识能力。为了支持这一基准,我们从体育广播和第一人称视角人机交互领域创建了数据集。SoccerNet数据集用于测试感知更新能力,包含16487条数据。HoloAssist数据集用于测试情境意识能力。这些数据集由时间戳标记的语句组成,以评估模型在实时视频流中生成语义准确且时间精确的语句的能力。
提供机构:
密歇根大学计算机科学与工程系
创建时间:
2025-05-16
搜集汇总
数据集介绍

构建方式
SoccerNet和HoloAssist数据集的构建采用了领域特定的视频-文本对齐策略。SoccerNet通过WhisperX自动转录足球比赛解说音频,并采用LSTM分类器筛选出39%与实时比赛动态紧密耦合的解说片段,确保数据的时间精确性。HoloAssist则基于任务引导场景中的自我中心视角视频,通过对话行为标注提取包含指令-修正交互的片段,捕捉语言对视觉场景的因果影响。两个数据集均采用严格的时间戳对齐机制,视频帧与语言标记以共享时间轴进行同步。
特点
该数据集的核心特征体现在时空耦合的标注体系上。SoccerNet包含58,031条实时解说,平均每1.13秒产生一个语义单元,完美呈现快速变化的赛场动态。HoloAssist则具备任务导向的对话特性,平均15.84轮对话覆盖7.94秒的操作序列,凸显指令与视觉反馈的交互性。两个数据集均采用TRACE评估框架,通过α=0.5的加权系数平衡语义相似度与时间对齐度,为实时视觉语言模型提供多维度评估基准。
使用方法
使用该数据集需遵循流式处理范式。研究者应将视频帧与文本标记按时间轴交织输入,VLM-TSI模型的BOS/EOS标记机制可动态控制生成节奏。评估时需计算生成语句与标注在5秒时间窗内的余弦相似度,同时通过F1分数惩罚过度生成。对于足球解说任务,建议2FPS采样率配合LoRA适配器;而人机交互场景则需加载任务摘要作为系统提示,以增强上下文感知。
背景与挑战
背景概述
SoccerNet和HoloAssist数据集是2025年由密歇根大学计算机科学与工程系的Keunwoo Peter Yu和Joyce Chai等人提出的,旨在支持实时视觉语言模型(VLMs)的研究。这些数据集主要用于评估模型在动态视觉输入下的语言生成能力,特别是在时间同步和语义准确性方面的表现。SoccerNet源自体育广播领域,用于测试模型的感知更新能力;而HoloAssist则来自第一人称视角的人类交互场景,用于评估模型的应急意识能力。这些数据集的提出填补了实时交互环境中VLMs评估的空白,推动了相关领域的研究进展。
当前挑战
SoccerNet和HoloAssist数据集面临的主要挑战包括:1) 在领域问题方面,实时视觉语言生成需要模型同时处理语义准确性和时间同步性,这对现有模型提出了更高的要求;2) 在构建过程中,数据集的标注和筛选需要大量人工干预,尤其是在区分实时评论和非实时内容时,增加了数据准备的复杂性。此外,HoloAssist数据集中的应急意识评估需要模型能够理解并响应用户的动态行为,这对模型的交互能力提出了更高的挑战。
常用场景
经典使用场景
SoccerNet和HoloAssist数据集在实时视觉语言模型(VLMs)研究中扮演了关键角色。SoccerNet主要用于评估模型在快速变化的体育比赛场景中的感知更新能力,而HoloAssist则用于测试模型在指导性任务中的应急意识能力。这些数据集通过提供时间同步的视频和文本注释,为模型在实时环境中的语言生成能力提供了基准测试。
解决学术问题
这两个数据集解决了实时视觉语言模型研究中的核心问题,包括如何在连续的视频流中生成语义准确且时间同步的语言响应。SoccerNet通过体育比赛的实时解说数据,帮助模型学习如何在动态场景中更新感知;HoloAssist则通过第一人称视角的交互数据,推动模型理解其语言输出如何影响用户行为,从而提升应急意识能力。
衍生相关工作
基于SoccerNet和HoloAssist数据集,研究者们提出了多种改进模型,如VLM-TSI,它通过时间同步的交错策略提升了实时语言生成的性能。此外,这些数据集还启发了TRACE等新型评估指标的开发,进一步推动了实时视觉语言模型的研究进展。
以上内容由遇见数据集搜集并总结生成



