NBA Full-Game Video Dataset

github2026-05-19 更新2026-05-20 收录

下载链接：

https://github.com/choucisan/nba_games

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集为YouTube上可用的完整NBA比赛视频提供元数据、官方统计数据和官方逐场注释。它不重新分发视频文件，而是提供YouTube视频ID和URL，以便用户在其使用案例和本地政策允许时独立下载视频。数据集将长格式篮球视频与结构化的NBA.com比赛数据链接起来，每个保留的比赛都有经过验证的YouTube视频引用、清理后的对阵和日期、官方NBA数据统计表，以及可用的官方逐场事件序列。

This dataset provides metadata, official statistics, and official play-by-play annotations for full-length NBA game videos available on YouTube. It does not redistribute the video files, but instead provides YouTube video IDs and URLs, allowing users to independently download the videos in compliance with their use cases and local policies. This dataset links long-form basketball videos to structured NBA.com game data, where each retained game includes verified YouTube video citations, cleaned matchup information and dates, official NBA statistical tables, and available official play-by-play event sequences.

创建时间：

2026-05-19

原始信息汇总

数据集概述

本数据集提供 NBA 完整比赛视频的元数据、官方统计数据和官方比赛实况（play-by-play）注释。数据集不直接分发视频文件，而是提供 YouTube 视频 ID 和 URL，用户可根据自身情况和当地政策独立下载视频。

数据集规模

已验证比赛总数：189 场
数据集总时长：约 347 小时（1,249,758 秒）
原始播放列表条目数：595
通过 NBA.com 验证前的有效候选比赛：217 场
包含非空实况文件的比赛：166 场
实况文件为空的比赛：23 场（较老的比赛）
总记分板行数：5,194 行
总实流行数：81,355 行

数据来源

元数据来源：YouTube 播放列表元数据和视频描述
官方统计数据来源：NBA.com 比赛页面
视频分发方式：不包含视频文件，仅提供 YouTube ID 和 URL

数据集结构

数据集目录结构如下：

NBA__Games/ ├── nba_games.jsonl # 每个保留的 YouTube 比赛对应一条元数据记录 └── games/ ├── YYYY-MM-DD-away-vs-home/ # 每场比赛一个文件夹 │ ├── video/ # 空占位目录 │ ├── box-score.jsonl # 官方 NBA 记分板数据 │ ├── play-by-play.jsonl # 官方 NBA 实况数据 │ └── metadata.json # 源和官方比赛链接元数据 └── ...

数据字段说明

`nba_games.jsonl` 字段

字段	类型	描述
`id`	string	YouTube 视频 ID
`url`	string	YouTube 观看 URL
`title`	string	清洗后的对阵格式，如 `Team A vs. Team B`
`date`	string	验证后的比赛日期，格式 `YYYY-MM-DD`
`duration`	integer	YouTube 视频时长（秒）
`description`	string	YouTube 描述

记分板数据（`box-score.jsonl`）

每行代表一条团队或球员记录，包含两类：

团队行 (row_type = "team")：包含source、nba_game_url、youtube_id、game_date、game_id、side（away/home）、team_id、team_city、team_name、team_tricode、score、periods、statistics等字段
球员行 (row_type = "player")：增加person_id、first_name、family_name、position、jersey_num、comment、statistics等字段

statistics 对象包含出场时间、投篮、三分、罚球、篮板、助攻、抢断、盖帽、失误、犯规、得分和正负值等数据。

实况数据（`play-by-play.jsonl`）

每行代表一个事件/动作，包含以下常用字段：

字段	类型	描述
`source`	string	数据来源，通常为 `nba.com`
`game_id`	string	官方 NBA 比赛 ID
`nba_game_url`	string	官方 NBA.com 比赛 URL
`youtube_id`	string	关联的 YouTube 视频 ID
`game_date`	string	比赛日期
`actionNumber`	integer	NBA.com 动作序列号
`actionId`	integer	比赛流中的动作 ID
`period`	integer	节/加时赛编号
`clock`	string	ISO-8601 格式比赛时钟
`teamTricode`	string	关联球队缩写
`personId`	integer	关联球员 ID
`playerName`	string	球员显示名称
`actionType`	string	事件类型（如 Foul、Jump Ball、Made Shot）
`subType`	string	事件子类型
`scoreHome`	string	动作后主队得分
`scoreAway`	string	动作后客队得分
`shotDistance`	integer	投篮距离
`shotResult`	string	投篮结果
`isFieldGoal`	integer	是否为投篮尝试
`xLegacy`、`yLegacy`	integer	NBA 遗留投篮位置坐标

数据获取

可通过 Hugging Face Datasets 加载数据：

python from datasets import load_dataset dataset = load_dataset("choucsan/NBA_Games", data_files="nba_games.jsonl") games = dataset["train"]

视频文件需通过 yt-dlp 等工具独立下载。

应用场景

本数据集设计用于以下研究领域：

长视频理解：全场比赛时间推理、长上下文视频-语言建模、事件定位
视觉检索：通过文本查询检索比赛片段、跨模态检索
时序预测：比分走势预测、下一步动作预测、胜负概率建模
动作理解：篮球动作识别、细粒度时间分割、球员中心事件定位
多模态问答：视频问答、统计结合的问答、多跳推理

许可证

数据集采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

在篮球运动数据驱动的智能分析需求日益增长的背景下，NBA Full-Game Video Dataset应运而生。该数据集的构建遵循了一套多阶段清洗与验证流程：首先，从YouTube上广泛引用的NBA完整比赛播放列表中提取视频元数据，涵盖视频ID、标题、时长等基本信息；随后，通过过滤无效占位条目，得到217个有效候选比赛；接着，对标题进行规范化处理，形成标准化的对阵格式，并借助大语言模型辅助推断与人工校验补全缺失字段；之后，将清洗后的对阵信息与NBA.com官方赛程进行匹配，并处理了历史球队名称的演变与全明星赛缩写等特殊情况；最后，从NBA.com游戏页面爬取官方数据，包括计分板与逐回合事件序列，经过最终筛选，留存189场经双重验证的完整比赛记录。

特点

该数据集的核心优势在于其独特的多源异构数据融合特性。它并非直接分发视频文件，而是提供YouTube视频ID与链接，引导用户在合规前提下自行获取原始视频。每个比赛记录均关联了来自NBA.com的官方计分板数据与逐回合事件注释，共计包含5,194行计分板数据与81,355行逐回合事件记录。数据集覆盖总计约347小时比赛时长，其中166场提供了完整的逐回合事件注释，23场早期比赛因官方数据缺失而仅保留计分板信息。结构上采用层级化目录组织，每场比赛以日期-客队-主队格式命名，内部包含计分板、逐回合事件与元数据文件，支持数据流的逐行处理。

使用方法

使用者可通过Hugging Face Datasets库便捷加载元数据文件，或利用huggingface_hub工具下载特定比赛的计分板与逐回合事件数据。具体实施时，首先加载nba_games.jsonl文件获取比赛列表与YouTube链接，随后依据比赛目录路径下载box-score.jsonl与play-by-play.jsonl用于结构化分析。视频获取需独立使用yt-dlp工具，结合数据集中提供的视频ID下载原始录像，此过程须严格遵守YouTube服务条款与当地版权法规。该数据集设计上服务于长视频理解、视觉检索、时序预测、动作识别与多模态问答等前沿研究领域，为篮球运动视频的结构化事件理解提供了坚实的数据基础。

背景与挑战

背景概述

NBA Full-Game Video Dataset是由研究者choucisan于近年构建并发布的一个面向长视频理解与结构化体育事件分析的基准数据集。该数据集旨在弥合自由获取的视频资源与官方统计数据之间的鸿沟，通过整合YouTube上完整的NBA比赛视频元数据与NBA.com官方提供的逐场统计及逐动作标注，为长视频时序推理、跨模态检索、动作识别与多模态问答等领域提供了高质量的数据基础。数据集包含189场经过严格验证的全场比赛，总时长约347小时，涵盖超过8万条逐动作事件记录。其发布不仅推动了体育视频分析的研究进展，还为长上下文视频语言建模与细粒度事件理解设立了新的数据标准。

当前挑战

该数据集所解决的核心领域挑战在于，长時序体育视频缺乏与结构化统计数据的联合标注资源，限制了模型对复杂比赛动态、战术演化与时刻转换的深层理解。现有数据集多聚焦于短片段或高亮集锦，难以支撑全场级别的时序推理与事件预测。在构建过程中，面临多重技术难题：YouTube标题格式不一、队伍名称与历史缩写混乱（如SEA/OKC、NJN/BKN等），需借助大语言模型辅助清洗与人工验证；官方NBA.com的数据接口因年代久远存在部分比赛缺少逐动作记录，23场早期比赛无法获取完整事件序列；视频版权限制使数据集仅能提供元数据与ID链接，用户需自行合规下载视频，增加了使用门槛与法律风险。

常用场景

经典使用场景

在体育视频分析领域，长时序视频理解一直是极具挑战性的研究课题，而NBA完整比赛视频数据集的问世，为攻克这一难题提供了关键支撑。该数据集最经典的使用场景在于，将时长1.5至2.5小时的完整篮球比赛视频作为研究单元，结合其官方同步的逐帧比赛日志与详尽的技术统计数据，支持研究者对整场比赛的时空动态进行系统性建模。无论是探索比赛势头的起伏转换、关键时刻的攻防博弈，抑或是跨越多个节次的长程事件关联推理，该数据集均能提供稠密且结构化的标注上下文，从而使得基于视频的多模态时序理解研究得以在真实且复杂的职业体育场景中深入开展。

衍生相关工作

围绕该数据集，已衍生出一系列具有影响力的研究工作，主要集中在长视频理解与体育智能分析两个交叉方向。在视频理解领域，该数据集推动了多模态事件定位方法的发展，研究者基于比赛日志文本与视频帧的跨模态对齐，设计出能够准确定位关键进球、犯规或转折点的时序定位模型。在时序预测方向，后续工作利用该数据集的赛事统计与事件序列，构建了深度学习驱动的比分演化和下一动作预测模型，探索了历史上下文与未来事件之间的因果关联。此外，在问答系统方面，出现了结合视觉证据与技术统计表的复杂推理式视频问答框架，能够回答关于球员表现、战术执行及比赛走势等多跳提问，进一步拓展了体育视频分析的学术纵深与实用价值。

数据集最近研究