Soccer-GMR

github2026-05-11 更新2026-05-12 收录

下载链接：

https://github.com/dymm9977/generalized-moment-retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

Soccer-GMR是一个大规模广义时刻检索基准，基于具有挑战性的足球视频构建。它包含真实的正面和负面查询-视频对，并以统一格式覆盖所有三种检索场景（空集拒绝、单时刻检索、多时刻检索）。数据集通过持续时间灵活的半自动化数据构建流程创建，并经过人工验证，将带时间戳的足球事件监督转换为广义时刻检索注释。数据集分为Standard和Full两个分组，分别包含训练、验证和测试文件，总计涉及数千个视频和查询对。

Soccer-GMR is a large-scale generalized moment retrieval benchmark constructed based on challenging soccer videos. It contains authentic positive and negative query-video pairs, and covers all three retrieval scenarios (empty set rejection, single-moment retrieval, multi-moment retrieval) in a unified format. The dataset is developed via a semi-automated data construction pipeline with flexible durations, manually validated, and converts timestamped soccer event supervision into generalized moment retrieval annotations. It is divided into two cohorts: Standard and Full, each containing training, validation, and test splits, involving a total of thousands of video-query pairs.

创建时间：

2026-04-22

原始信息汇总

数据集概述：Soccer-GMR（通用时刻检索基准）

一、任务定义

通用时刻检索（Generalized Moment Retrieval, GMR） 扩展了传统的视频时刻检索，支持查询与视频之间三种对应关系：

零匹配（空集拒绝）：事件未出现时，返回空集
单匹配（单时刻检索）：仅检索唯一相关的时刻片段
多匹配（多时刻检索）：检索所有相关的时刻片段

每个查询的输出为一组时间窗口，格式示例： json { "qid": 580, "pred_relevant_windows": [[26.0, 34.0, 0.91], [104.0, 112.0, 0.87]], "pred_exist_score": 0.95 }

二、数据集规模与划分

划分组	训练集	验证集	测试集	总计	视频数量
Standard（标准）	4,138	465	1,036	5,639	1,957
Full（完整）	16,898	2,235	2,986	22,119	5,468

三、构建方法

采用持续时间灵活的半自动数据构建管道，融合人工验证。管道将带时间戳的足球事件监督数据转化为通用时刻检索标注，包括：

构建自然语言查询
采样正向和域内负向查询-视频对
将时间标注归一化为评估就绪的时间窗口

持续时间灵活设计允许基准从固定150秒片段扩展到更长视频范围，同时保留时刻级标注。

四、评估指标

评估协议涵盖三个维度：

1. 空集拒绝能力

AUROC（接收者操作特征曲线下面积）
Rej-F1（拒绝F1分数）
Acc（准确率）

2. 正向查询的时序定位

mAP（平均精度均值）
mR@k（平均召回率@k）
mR+@k（加权平均召回率@k）
mIoU@k（平均交并比@k）
mIoU+@k（加权平均交并比@k）

3. 端到端通用时刻检索性能

G-mIoU@k（通用平均交并比@k）

五、基准模型与主要结果

报告在Soccer-GMR Standard划分上的结果：

模型	AUROC	Rej-F1	mAP	mR@5	mR+@5	G-mIoU@1	G-mIoU@3
Moment-DETR	69.92	0.00	6.98	10.92	0.78	5.39	2.47
Moment-DETR-GMR	72.09	64.01	7.52	12.96	0.84	35.84	32.89
EaTR	70.99	0.80	18.48	25.27	11.81	12.94	6.67
EaTR-GMR	79.11	62.10	18.56	24.43	13.97	37.89	31.95
FlashVTG	57.33	7.12	23.61	33.06	15.30	15.41	8.21
FlashVTG-GMR	74.00	61.72	24.62	33.36	19.10	39.58	33.53

六、方法范式

论文研究了两种建模范式：

GMR Adapter：轻量级即插即用模块，为判别式VMR骨干网络增加显式存在估计分支，同时保留时序定位主干
GMR-tailored GRPO Reward：对生成式多模态大语言模型进行强化学习适配，联合奖励正确的拒绝行为和时序定位质量

七、数据获取

数据集标注文件位于仓库的 data/label/ 目录
视频和模型权重托管于 Hugging Face
访问需填写Soccer-GMR NDA表格后手动审核
禁止商业用途、再分发、公开托管或共享访问链接

八、引用信息

bibtex @article{ding2026retrieving, title={Retrieving Any Relevant Moments: Benchmark and Models for Generalized Moment Retrieval}, author={Ding, Yiming and Cao, Siyu and Jiao, Luyuan and Li, Yixuan and Wang, Zitong and Liu, Zhiyong and Zhang, Lu}, journal={arXiv preprint arXiv:2605.02623}, year={2026}, doi={10.48550/arXiv.2605.02623} }

搜集汇总

数据集介绍

构建方式

Soccer-GMR的构建采用了一种持续时长灵活的半自动化数据标注流程，辅以人工验证环节。该流程将带有时间戳的足球赛事事件监督信息转化为广义时刻检索标注，通过构建自然语言查询、采样正向与域内负向查询-视频对，并将时间标注归一化为可直接评估的时间窗口。持续时长灵活的设计使得基准能够从固定的150秒剪辑扩展至更长的视频范围，通过合并相邻剪辑的同时保留时刻级别的监督信息，最终构建了包含标准版与完整版两个分组的评测数据集。

特点

Soccer-GMR是首个针对广义时刻检索任务的大规模基准数据集，基于具有挑战性的足球赛事视频构建。它覆盖了查询可能对应空集、单个时刻或多个时刻的三种统一检索场景，包含真实的正向与负向查询-视频对。数据集具有丰富的统计特性，标准版包含5639条样本、1957个视频，完整版包含22119条样本、5468个视频。评估体系同时衡量拒绝能力与时间定位能力，提供AUROC、Rej-F1、mAP、G-mIoU等多项指标。

使用方法

使用者可通过Hugging Face平台获取视频与模型权重等大文件，需填写NDA表单获取人工审核后访问权限。数据集标签文件以JSONL格式存放于data/label/Standard/与data/label/Full/目录下，训练、验证、测试集已预划分。评估工具位于eval/目录，可运行python eval/eval_main.py --submission_path <提交文件> --gt_path <真值文件> --save_path <结果文件>进行评测，支持多种指标计算。商业用途、再分发、公开托管或分享访问链接均不被允许。

背景与挑战

背景概述

视频时刻检索（Video Moment Retrieval, VMR）长期以来受限于预设每条查询恰对应单一时间段的简化假设，难以应对现实场景中事件缺失、单次出现或重复发生的复杂情况。为了突破这一局限，Yiming Ding、Siyu Cao等研究者在2026年提出了广义时刻检索（Generalized Moment Retrieval, GMR）任务，并构建了名为Soccer-GMR的大规模基准数据集。该数据集以足球比赛视频为核心素材，通过引入包含否定样本的自然语言查询，统一覆盖了无相关时刻、单时刻及多时刻三种检索场景。Soccer-GMR依托结合人工验证的半自动化流水线生成标注，其持续时间灵活的设计支持从固定片段到更长视频范围的扩展，为GMR研究提供了可靠的评估基础与数据支撑。

当前挑战

Soccer-GMR所面临的核心挑战首先源于领域问题的复杂性：传统VMR方法无法处理查询与视频之间可能存在的空集对应关系，而GMR要求系统在拒绝无事件查询的同时，精准定位单次或多次出现的事件，这对模型的判别能力与召回能力提出了双重考验。数据集构建过程中亦遇到诸多困难，包括从原始足球视频中提取时序事件标注的高昂人力成本、如何设计涵盖否定、单次与多次事件的多样化自然语言查询，以及确保在合并相邻片段以扩展视频时长时仍能完整保留时刻级监督信息。此外，不同场景下正负样本的平衡性、多时刻查询中重叠窗口的规范化处理，也为标注标准与评估协议的统一带来了挑战。

常用场景

经典使用场景

在视频理解领域，传统时刻检索任务长期受限于“每查询必有一匹配片段”的假设，无法应对事件缺失或多次出现的复杂现实。Soccer-GMR数据集在此基础上定义了广义时刻检索任务，将零、单、多时刻检索统一于一个框架之下。基于足球赛事视频构建的大规模标注库，它通过时序监督与自然语言查询的配对设计，支持模型在三种场景中同时训练与评估。研究者常用该数据集检验模型在空集拒绝、精准定位以及多片段召回上的综合能力，其标准化划分与完整的评测指标为对比实验提供了可靠的基准平台。

衍生相关工作

围绕Soccer-GMR数据集，研究工作主要沿两条技术路线展开。一方面，GMR Adapter作为轻量级判别式适配模块被提出，通过显式添加存在性估计分支，使传统时刻检索骨干网络如Moment-DETR、EaTR与FlashVTG具备空集拒绝能力，在Rej-F1与G-mIoU指标上实现了显著提升。另一方面，针对生成式多模态大语言模型，研究人员设计了面向广义时刻检索的GRPO奖励机制，联合优化拒绝行为与定位精度，为语言模型在视频定位任务中的应用开辟了新方向。这些衍生工作系统性推动了视频理解从理想化检索向真实世界应用的关键跨越。

数据集最近研究