NBA_Games

Hugging Face2026-05-19 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/choucsan/NBA_Games

下载链接

链接失效反馈

官方服务：

资源简介：

NBA全场比赛视频数据集是一个多模态体育视频理解数据集，提供完整NBA比赛视频的元数据、官方技术统计和比赛实况注释。数据集不直接包含视频文件，而是提供YouTube视频ID和URL，用户可根据使用场景和当地政策自行下载视频。数据集通过多阶段清洗和验证流程构建，最终包含189场验证比赛，总时长约347小时。数据包括5,194行技术统计数据和81,355行比赛实况数据，结构分为主文件（包含视频元数据）和游戏文件夹（包含技术统计、比赛实况和元数据文件）。该数据集适用于长视频理解、视觉检索、时序预测、动作理解和多模态问答等研究任务。

The NBA Full Game Video Dataset is a multimodal sports video understanding dataset that provides metadata, official technical statistics, and live game annotations for complete NBA game videos. The dataset does not directly include video files but provides YouTube video IDs and URLs, allowing users to download videos based on their usage scenarios and local policies. It is constructed through a multi-stage cleaning and validation process, resulting in 189 verified games with a total duration of approximately 347 hours. The data includes 5,194 rows of technical statistics and 81,355 rows of play-by-play data, structured into a main file (containing video metadata) and game folders (containing technical statistics, play-by-play annotations, and metadata files). This dataset is suitable for research tasks such as long video understanding, visual retrieval, temporal prediction, action understanding, and multimodal question answering.

创建时间：

2026-05-19

搜集汇总

数据集介绍

构建方式

NBA_Games数据集通过多阶段清洗与验证管道构建而成。首先从YouTube上一个广受瞩目的NBA完整比赛播放列表中提取视频元数据，涵盖视频标识符、时长、标题及描述等信息。随后对原始条目进行筛选，剔除非真实标题或缺乏可用元数据的占位符记录，保留217个有效候选比赛。接着对比赛标题进行标准化格式转换，并借助大语言模型辅助推断与人工校正完善缺失或模糊的日期字段。此后，通过查询NBA官网日期页面，将标准化后的对阵信息与官方比赛列表进行匹配，并妥善处理历史球队简称与全明星赛等特殊情况。最终仅保留能够与NBA官网数据成功配对的189场比赛，同时下载官方比分统计与逐回合事件注释，形成结构化的元数据与统计文件。

特点

该数据集的核心特色在于将长时篮球视频与NBA官方结构化数据进行精准关联。每个比赛条目均提供经过验证的YouTube视频链接、标准化对阵名称、比赛日期，以及详尽的官方比分数据与逐回合事件序列。数据总量涵盖189场比赛，总时长约347小时，包含超过5,000行比分统计记录与81,000条逐回合事件注释。比赛文件夹采用日期与对阵组合的命名规范，内部包含独立的比分统计与逐回合注释文件，便于按需加载。值得注意的是，数据集仅提供视频标识符而不直接分发视频文件，充分尊重版权与使用政策，赋予研究者依据自身需求独立下载视频的灵活性。

使用方法

研究者可通过Hugging Face Datasets库便捷加载数据集元数据，仅需调用`load_dataset`函数并指定数据文件路径即可获取所有比赛的索引信息。随后利用`huggingface_hub`库中的`hf_hub_download`函数，按比赛文件夹路径下载对应的比分统计与逐回合注释文件，并采用JSON Lines格式逐行解析，避免内存溢出风险。如需获取完整比赛视频，可使用`yt-dlp`工具并以视频标识符为参数独立下载，确保完全遵守YouTube服务条款与本地研究政策。该数据集广泛适用于长视频理解、时序预测、动作识别、跨模态检索及多模态问答等研究场景，为体育视频分析领域提供了高质量的结构化数据支撑。

背景与挑战

背景概述

NBA_Games数据集由研究者choucisan于2024年创建，旨在为长视频理解与多模态体育分析提供标准化数据基础。该数据集整合了YouTube上完整NBA比赛的元数据、官方NBA.com的比分统计与逐回合事件注释，覆盖189场验证过的经典与历史赛事，总时长超过347小时。通过将结构化篮球数据与长形式视频关联，该数据集填补了体育视频分析领域缺乏高质量、跨模态对齐资源的空白，对推动视频时序推理、跨模态检索、游戏态势预测及多模态问答等研究具有重要价值。

当前挑战

该数据集所解决的领域挑战包括：现有体育视频数据集多聚焦短片段或单一模态，缺乏对完整比赛长时间跨度内事件关联、比分动态与战术演变的系统建模。同时，构建过程中面临多重困难，例如从YouTube非结构化标题中精准解析比赛日期与对阵双方、处理历史球队变更名称及缩写（如NJN/BKN、SEA/OKC）以对齐NBA.com官方记录、以及应对早期比赛缺乏官方逐回合注释数据（23场空文件）等问题。此外，视频版权与分发限制要求仅提供ID而非直接文件，增加了用户合规获取数据的门槛。

常用场景

经典使用场景

在体育视频分析与多模态理解的研究疆域中，NBA_Games数据集以其独特的全场比赛视角，为科研人员提供了弥足珍贵的长视频研究素材。该数据集收录了189场经过严格验证的完整NBA比赛，囊括了总计约347小时的视频元数据，并配套了NBA官方技术统计与逐秒级事件注释。其最经典的使用场景聚焦于长视频理解，研究者可借助该数据集开展跨越1.5至2.5小时的完整赛事时间推理，探索视频语言联合建模、稀疏文本查询下的精彩片段定位，以及剖析比赛势能逆转、加时赛搏杀与关键时刻的连贯叙事结构。这一资源的诞生，使得从全场比赛层面理解动态体育事件成为可能，打破了过往研究多局限于短片段分析的技术壁垒。

实际应用

在产业应用的广阔版图中，NBA_Games数据集展现出显著的多维赋能潜力。体育媒体平台可借此构建智能化的视频剪辑与精彩集锦生成系统，通过解析逐秒事件序列与文本描述，自动化提取关键投篮、惊心动魄的盖帽或绝杀时刻。面向职业球队的战术分析工具亦能从中获益，系统可以基于比赛事件的时间分布与球员位置坐标（xLegacy, yLegacy），量化攻防效率并识别战术模式。在球迷互动层面，数据集支撑的跨模态问答系统能够回答诸如“本节后半段库里投进了多少记三分”等复杂时空查询，提升观赛体验的沉浸感与信息密度。同时，赛事转播方可利用比分预测模型实时展示获胜概率曲线，为解说策略与观众互动提供数据驱动的洞察。

衍生相关工作

自NBA_Games数据集发布以来，其精细的结构化设计已催生了一系列富有影响力的衍生研究工作。沿着长视频理解的脉络，学者们基于该数据集开发了面向完整赛事的时序定位与事件检索模型，将传统的短视频动作识别延伸至数小时的连续比赛情境。在跨模态推理方向，研究者结合逐秒事件序列与技术统计行，构建了具备多跳推理能力的视觉问答系统，能够回答需要同时利用视觉证据与结构化统计数据支撑的复杂查询。时间序列预测领域也涌现了若干基于该数据集的工作，聚焦于利用历史事件序列建模得分轨迹与比赛最终结果。此外，该数据集的球员级精细标注为基于角色的行为识别提供了独特的评测基准，推动了从个体动作到团队协调行为的理解进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集