SportsGrounding

Name: SportsGrounding
Creator: Multimedia Computing Group-Nanjing University
Published: 2025-12-30 21:18:22
License: 暂无描述

Hugging Face2025-12-30 更新2025-12-31 收录

下载链接：

https://huggingface.co/datasets/MCG-NJU/SportsGrounding

下载链接

链接失效反馈

官方服务：

资源简介：

SportsGrounding数据集基于MultiSports数据集的篮球子集，专注于篮球相关场景。它包含大量复杂的人与人之间以及人与物体之间的交互场景，实例数量较多。数据集基于MultiSports的视频和注释数据进行了修改，移除了六个动作过于重复且无法通过自然语言区分的视频，最终包含520个视频。它遵循MultiSports的训练/验证集划分，训练集包含374个视频，验证集包含146个视频。与其他STVG数据集不同，SportsGrounding中的每个视频包含多个描述不同目标人物的字幕。数据集的关键统计信息包括：4243个视频-文本对，平均视频时长19.70秒，平均目标时长1.49秒，平均描述长度16.89个单词。与其他数据集相比，SportsGrounding具有一些独特特点，如部分实例持续时间非常短，视频中出现的人数较多，以及更复杂的人际交互。数据格式以JSON文件提供，包含视频的边界框、帧率、起始和结束帧、描述字幕等信息。

The SportsGrounding dataset is based on the basketball subset of the MultiSports dataset, focusing on basketball-related scenarios. It contains numerous complex interaction scenarios between humans and between humans and objects, with a large number of instances. The dataset is modified based on the video and annotation data of MultiSports, with 6 videos that have overly repetitive actions and cannot be distinguished by natural language removed, ultimately containing 520 videos. It follows the train/validation split of MultiSports, with the training set containing 374 videos and the validation set containing 146 videos. Unlike other STVG datasets, each video in SportsGrounding contains multiple captions describing different target persons. The key statistical information of the dataset includes: 4243 video-text pairs, an average video duration of 19.70 seconds, an average target duration of 1.49 seconds, and an average caption length of 16.89 words. Compared with other datasets, SportsGrounding has several unique characteristics, such as extremely short durations of some instances, a large number of people appearing in the videos, and more complex interpersonal interactions. The data is provided in JSON files, containing information such as video bounding boxes, frame rate, start and end frames, descriptive captions, and more.

提供机构：

Multimedia Computing Group-Nanjing University

创建时间：

2025-12-30

原始信息汇总

SportsGrounding 数据集概述

1. 任务描述

该数据集面向时空视频定位任务。该任务旨在以未修剪视频和自然语言描述作为输入，输出与自然语言描述对应的时空管道，即定位起始帧和结束帧，以及在定位片段内目标的边界框。

2. 数据概览

数据来源：基于 MultiSports 数据集的篮球子集构建，专注于篮球相关场景。
场景特点：包含大量复杂的人与人、人与物交互场景，实例数量较多。
视频数量：共 520 个视频（移除了 6 个因动作过度重复而无法用自然语言区分的视频）。
数据划分：遵循 MultiSports 的划分，训练集 374 个视频，验证集 146 个视频。
标注特点：每个视频包含多个描述不同目标人物的字幕。

2.1 关键统计信息

指标	数值
数据集大小	4243 个管道（即 4243 个视频-文本对）
平均视频时长	19.70 秒
平均管道时长	1.49 秒
平均描述长度	16.89 个单词

2.2 与其他数据集的对比

指标	VidSTG	HC-STVG v1	HC-STVG v2	SportsGrounding
数据来源	VidOR	AVA	-	MultiSports
数据集大小	99943 个视频-文本对	5660 个视频-文本对	16544 个视频-文本对	4243 个视频-文本对
平均视频时长	28.01 秒	20 秒	-	19.70 秒
平均管道时长	9.68 秒	5.37 秒	-	1.49 秒
平均描述长度	陈述句: 11.12; 疑问句: 8.98	17.25	-	16.89

2.3 独特特性

部分实例持续时间非常短。
视频中出现的人物更多（其他数据集即使在多人场景中人物也较少；HC-STVG 中 57.2% 的视频有超过 3 人，其余为 2 人）。
人与人之间的交互更复杂；许多描述需要一定的推理和场景信息建模。
- 示例描述：“穿白色的防守球员被这名进攻球员的队友挡住了。”

3. 数据格式

标注文件：分为 train.json 和 val.json。
结构说明：每个标注条目以视频文件名为键，其值为一个列表，列表中的每个元素是一个字典，代表一个视频-文本对（即一个管道）。
字典字段：
- "bbox"：目标人物的连续边界框列表，格式为 [[x0, y0, w0, h0], [x1, y1, w1, h1], ...]。
- "fps"：视频的帧率。
- "st_frame"：真实起始帧（索引从 1 开始）。
- "ed_frame"：真实结束帧。
- "caption"：描述目标人物的字幕。
- "width"：图像宽度。
- "height"：图像高度。

4. 许可信息

许可证：CC BY-NC 4.0

搜集汇总

数据集介绍

构建方式

在体育视频分析领域，SportsGrounding数据集以MultiSports数据集中的篮球子集为基础构建而成。通过剔除六段动作重复度过高、难以通过自然语言区分的视频，最终保留了520段篮球比赛视频，并沿用了MultiSports原有的训练集与验证集划分方式，分别包含374段和146段视频。该数据集特别为每段视频标注了多个描述不同目标人物的文本，形成了4243个视频-文本对，每个标注均精确提供了目标人物的时空定位信息，包括起始帧、结束帧以及连续边界框序列。

特点

SportsGrounding数据集在时空视频定位任务中展现出鲜明的专业特性。其视频平均时长约为19.70秒，而所标注的目标行为片段平均仅持续1.49秒，体现了对短暂、精细动作的捕捉能力。数据集专注于篮球场景，视频中人物数量较多，人际及人物与物体间的交互复杂，超过半数的描述需要结合场景信息进行一定程度的推理。例如，描述可能涉及“身穿白色的防守队员被这位进攻球员的队友阻挡”，这要求模型理解团队角色与动态互动关系，从而提升了任务的挑战性与现实应用价值。

使用方法

为便于研究使用，数据集以JSON格式提供训练集和验证集标注文件。每个标注条目关联一个视频文件，并包含目标人物的连续边界框序列、视频帧率、时空真值起止帧、描述文本以及视频分辨率等关键信息。使用者可依据标注中的‘st_frame’与‘ed_frame’定位时间片段，并利用‘bbox’序列进行空间定位，从而训练或评估模型在复杂体育场景下根据自然语言描述精确追踪特定人物时空轨迹的能力。这种结构化设计支持端到端的模型开发与性能验证。

背景与挑战

背景概述

时空视频定位（STVG）任务旨在通过未修剪视频和自然语言描述，精准定位目标在时空维度上的轨迹，即起始帧、结束帧及对应边界框。SportsGrounding数据集由研究团队基于MultiSports的篮球子集构建，专注于篮球运动场景，其创建旨在应对复杂人际与人物交互的建模需求。该数据集包含520个视频及4243个视频-文本对，平均视频时长约19.70秒，平均轨迹片段持续1.49秒，描述平均长度16.89词。相较于VidSTG、HC-STVG等现有数据集，SportsGrounding强调多人密集交互、短时动作捕捉及场景推理，为计算机视觉与自然语言处理的交叉研究提供了更具挑战性的基准。

当前挑战

SportsGrounding所解决的时空视频定位任务面临多重挑战：其一，篮球场景中多人交互频繁，目标人物在密集遮挡下难以持续跟踪；其二，自然语言描述常隐含复杂推理，如‘白衣防守队员被进攻方队友阻挡’，需模型理解场景语义与角色关系；其三，数据集中存在大量短时动作实例，平均轨迹仅1.49秒，对时序定位的精确性提出更高要求。在构建过程中，团队需从原始MultiSports数据中筛选并剔除重复动作视频，确保语言描述具备区分度，同时标注连续边界框与时空片段，处理视频帧率、分辨率不一带来的对齐难题。

常用场景

经典使用场景

在计算机视觉与自然语言处理交叉领域，SportsGrounding数据集为时空视频定位任务提供了篮球场景的基准测试平台。该数据集聚焦于篮球比赛视频，通过自然语言描述定位特定球员在时空维度上的轨迹，即从视频中确定目标球员的起始与结束帧，并连续追踪其边界框。其经典使用场景涉及模型在复杂动态环境中理解语言指令与视觉内容的对应关系，尤其适用于评估算法在多人交互、快速动作变化及短时事件捕捉方面的性能。

解决学术问题

SportsGrounding数据集主要解决了时空视频定位中因场景简单、交互有限而导致的模型泛化能力不足问题。传统数据集往往包含较少人物或简单动作，难以模拟真实世界中的密集互动与推理需求。该数据集通过引入篮球比赛中的多人复杂交互、短时事件以及需要上下文推理的描述，推动了模型在时空推理、场景建模及细粒度定位方面的研究进展，为构建更鲁棒、更智能的视频理解系统提供了关键数据支撑。

衍生相关工作

基于SportsGrounding数据集，研究者们衍生了一系列经典工作，主要集中在时空视频定位模型的创新与优化上。例如，针对其短时管段与复杂交互的特点，出现了融合时空注意力机制与图神经网络的方法，以更好地建模人物关系与动作连续性；同时，该数据集也促进了多模态预训练技术在体育领域的适配，如结合视频与文本的对比学习框架，提升了模型在少样本场景下的定位精度，为后续更广泛的视频理解任务奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集