five

Soccer-GMR

收藏
arXiv2026-05-04 更新2026-05-06 收录
下载链接:
https://github.com/dymm9977/generalized-moment-retrieval
下载链接
链接失效反馈
官方服务:
资源简介:
Soccer-GMR是由中国科学院自动化研究所等机构构建的大规模足球视频时序检索基准数据集,包含139场多样化比赛的5.5K视频片段和22.1K查询-时刻对。数据集通过半自动化流程生成,覆盖空集拒绝、单时刻检索和多时刻检索三种场景,具有时长可调的滑动窗口设计和平衡采样策略。其创新性体现在真实场景中的自然负样本构建和细粒度事件标注,适用于视频语言理解、多模态检索等研究领域,旨在解决传统视频时刻检索任务中单时刻假设与真实场景不匹配的核心问题。

Soccer-GMR is a large-scale football video temporal retrieval benchmark dataset constructed by institutions including the Institute of Automation, Chinese Academy of Sciences and other relevant organizations. It contains 5.5K video clips from 139 diverse matches and 22.1K query-moment pairs. The dataset is generated via a semi-automated pipeline, covering three scenarios: empty set rejection, single-moment retrieval and multi-moment retrieval, and features an adjustable-duration sliding window design and balanced sampling strategy. Its innovative contributions lie in the construction of natural negative samples in real-world scenarios and fine-grained event annotation. It is applicable to research fields such as video-language understanding and multimodal retrieval, aiming to address the core problem that the single-moment assumption in traditional video moment retrieval tasks does not match real-world scenarios.
提供机构:
中国科学院·自动化研究所; 北京邮电大学; 武汉大学; 电子科技大学
创建时间:
2026-05-04
原始信息汇总

Generalized Moment Retrieval (GMR) 数据集概述

数据集简介

Generalized Moment Retrieval (GMR) 是一个统一的视频时刻检索设定,其中每个查询可能对应视频中的零个时刻一个时刻多个时刻。与传统视频时刻检索(VMR)只假设每个查询对应一个时刻不同,GMR 要求模型返回查询对应的完整相关时刻集合,或在查询事件不存在时正确预测空集。

基准数据集:Soccer-GMR

Soccer-GMR 是 GMR 的一个基准实例,基于具有挑战性的足球视频构建,覆盖三种检索场景:

  • 空集拒绝(Null-set rejection):查询在视频中没有对应时刻
  • 单时刻检索(Single-moment retrieval):查询恰好有一个相关时刻
  • 多时刻检索(Multi-moment retrieval):查询有多个相关时刻

与传统 VMR 基准相比,Soccer-GMR 强调:

  • 现实场景下的领域内负样本查询
  • 拒绝与定位的统一评估
  • 时长灵活的基准构建视角

数据集统计

  • 139 场比赛
  • 5,500 个视频片段
  • 22,100 个查询-片段对

数据集结构

仓库组织结构如下:

Generalized_Moment_Retrieval/ ├── data/ │ └── label/ │ ├── full/ # 完整标签 │ └── sub/ # 子集标签 ├── eval/ # 评估工具包 │ ├── eval_main.py │ ├── metrics.py │ ├── normalization.py │ ├── utils.py │ └── example/ # 评估示例 ├── assets/ # 图像资源 ├── pipeline/ # 数据处理流程 ├── models/ # 模型相关 └── training/ # 训练相关

数据格式

基准标签以 JSONL 格式提供,位于 data/ 目录下。评估流程主要使用的字段包括:

  • qid:查询 ID
  • relevant_windows:相关时刻窗口

部分标签文件还保留了中间标注字段(如 moment),可通过提供的评估工具标准化为评估可用的窗口格式。

评估指标

官方评估工具包位于 eval/ 目录,支持以下指标:

  • 空集拒绝:Rej-F1, AUROC
  • 时刻定位:mR@k, mR+@k, mAP
  • 端到端 GMR 性能:G-mIoU@k

快速开始

安装依赖后,运行官方评估示例:

bash pip install -r requirements.txt python eval/eval_main.py --submission_path eval/example/example_test_submission.jsonl --gt_path data/label/sub/test.jsonl --save_path eval/example/example_test_results.json

资源链接

搜集汇总
数据集介绍
main_image_url
构建方式
Soccer-GMR数据集的构建依托于一种时长灵活的半自动化流水线,旨在高效生成涵盖无对应、单片段及多片段三类检索场景的标注。该流水线首先利用大语言模型从原始视频字幕中提取高频事件类型及其属性,形成结构化的查询词汇表。随后,通过可配置滑动窗口对视频进行分段,并采用两阶段多目标平衡采样策略,以缓解多片段正样本稀少、负样本占比过高及事件类型长尾分布带来的数据不平衡问题。在此基础上,将时间戳扩展为片段级边界,并通过规则驱动的扩展方法统一标注标准,同时借助基于规则的改写生成多样化的查询表达。最终,所有标注均经人工及专家验证,确保其质量与一致性。
特点
Soccer-GMR数据集的核心特点在于其全面覆盖通用化时刻检索的三种典型场景:无对应时刻的拒绝、单时刻定位以及多时刻检索,且负样本来源于同一视频内语义相似但实际未发生的事件,具有高语义相似度的自然域内属性,显著提升了拒绝任务的难度与真实性。该数据集包含来自139场国际足球比赛的5,500个视频片段及22,119对查询-时刻标注,时长设计灵活,支持通过合并相邻片段扩展至长达45分钟的半场比赛输入,为长视频检索研究提供了基础。此外,数据集在正负样本比例、时刻时长分布及时间位置覆盖上呈现多样性,有效支撑了模型在复杂视觉场景下的鲁棒性评估。
使用方法
Soccer-GMR数据集可广泛应用于通用化时刻检索任务的模型训练与评估。对于判别式视频时刻检索模型,研究人员可基于其提供的结构化标注,直接使用标准监督学习框架进行训练,并可通过附加轻量级存在性估计分支来实现无对应查询的拒绝预测。对于多模态大语言模型,该数据集支持采用基于规则的强化学习奖励函数进行微调,以联合优化定位精度与拒绝能力。评测方面,数据集配套了统一的评估协议,包括针对拒绝能力的Rej-F1与AUROC、针对正查询定位的mR@k与mAP,以及端到端的G-mIoU指标,使得研究人员能够从多个维度系统性地衡量模型性能。
背景与挑战
背景概述
视频时刻检索(Video Moment Retrieval, VMR)旨在根据自然语言查询定位视频中的时间片段,但其传统设定隐含了一个严苛假设:每个查询仅对应一个匹配时刻。然而在真实场景中,查询可能对应多个甚至零个相关时刻,这一局限性促使研究者探索更普适的广义时刻检索(Generalized Moment Retrieval, GMR)。在此背景下,由中国科学院自动化研究所、北京邮电大学、武汉大学及电子科技大学联合团队于2026年提出的Soccer-GMR数据集应运而生。该数据集以足球比赛视频为载体,包含来自139场比赛的5,500个视频片段及22,119个查询-时刻对,覆盖零集、单时刻与多时刻三种检索场景。其通过创新的时长灵活半自动标注流水线构建,并引入专家验证确保质量,为视频语言理解领域提供了一个更具现实挑战的基准,推动了从传统VMR向GMR的范式转变。
当前挑战
Soccer-GMR所应对的领域挑战在于传统VMR假设与现实需求之间的根本矛盾:一方面,查询可能对应多个离散时刻(如“角球”在足球比赛中多次出现),要求模型具备多时刻检索能力;另一方面,查询也可能无对应时刻(如“红牌”在特定比赛中未发生),要求模型实现零集拒绝。此外,构建过程中面临的挑战包括:现有数据集多依赖合成负样本(如随机替换实体),难以反映真实检索场景的语义相似性;标注长视频中所有相关时刻成本高昂;以及缺乏统一评估协议来同时衡量拒绝、定位与综合检索性能。Soccer-GMR通过设计时长灵活的半自动流水线、引入自然发生的域内负样本,并制定包含Rej-F1、mR+@k及G-mIoU@k的互补指标系,系统性地应对了这些挑战。
常用场景
经典使用场景
Soccer-GMR数据集扎根于体育视频分析这一富有挑战性的领域,其最经典的使用场景是为广义视频时刻检索(Generalized Moment Retrieval, GMR)任务提供标准化的基准平台。不同于传统方法对单一片段的限定,该数据集要求模型在足球比赛视频中,针对自然语言查询精准定位全部相关的时刻集合,无论该集合中包含一个、多个抑或为零个片段。通过构建涵盖空集拒绝与多时刻检索的复杂场景,Soccer-GMR为评估跨模态时空推理能力树立了新的标杆。
衍生相关工作
基于Soccer-GMR数据集,一系列奠基性的工作得以衍生并拓展了广义时刻检索的研究边界。在判别式模型方面,研究者提出了轻量级的GMR Adapter,通过并行存在性估计分支为传统视频时刻检索骨干网络赋予空集预测能力,而无需修改原始架构。在生成式多模态大语言模型方向上,相关工作设计了专门针对GMR任务的GRPO奖励函数,通过强化学习联合优化定位质量与拒绝能力。这些衍生工作不仅建立了坚实的性能基线,更深刻揭示了当前方法在多时刻检索以及细粒度时间定位上的关键局限,为后续研究指明了方向。
数据集最近研究
最新研究方向
通用化视频时刻检索(Generalized Moment Retrieval, GMR)正成为视频理解领域的前沿焦点。传统方法局限于单匹配假设,而Soccer-GMR数据集凭借其大规模、多场景(空集、单时刻、多时刻)与真实域内负样本的特性,为研究者提供了统一评测基准。当前研究方向聚焦于两大挑战:如何使模型具备显式的空集拒绝能力,以及如何实现多时刻的完整检索。相关工作已提出轻量级适配器(如GMR Adapter)与基于GRPO的强化学习微调策略,显著提升了判别式模型和多模态大语言模型在此任务上的表现,但绝对性能仍不高。该数据集的提出不仅揭示了现有方法的局限,更推动了视频语言理解向更贴近真实世界的高阶推理任务演进。
相关研究论文
  • 1
    Retrieving Any Relevant Moments: Benchmark and Models for Generalized Moment Retrieval中国科学院·自动化研究所; 北京邮电大学; 武汉大学; 电子科技大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作