MLB GUMBO Data
收藏Google Cloud x MLB Hackathon 数据集概述
MLB GUMBO 数据访问
关于 GUMBO
GUMBO(Grand Unified Master Baseball Object)实时数据源提供了一个标准化的 JSON 响应,每次更新时总结所选游戏的整个状态。与之前的实时事件数据源不同,GUMBO 在每次对象创建时提供完整的游戏信息,而不是增量更新。
主要优势
- 完整的游戏状态:无需在本地维护游戏状态或基于消息序列构建,每个 GUMBO 对象都包含整个游戏的完整和当前数据集。
- 标准 JSON 格式:GUMBO 遵循真正的 JSON 标准,与之前的格式不同。
- 灵活的访问方法:
- Websocket 监听器(每 1-2 秒推送更新)
- Stats API(每 12 秒拉取更新)
- 开发友好:随时使用实际生产数据进行开发,无需等待测试数据交付。
API 端点
访问 GUMBO 数据的基 URL(将 {game_pk} 替换为特定游戏 ID):
-
当前游戏状态:
https://statsapi.mlb.com/api/v1.1/game/{game_pk}/feed/live
-
特定游戏时间戳:
https://statsapi.mlb.com/api/v1.1/game/{game_pk}/feed/live?timecode=yyyymmdd_######
-
游戏更新时间戳列表:
https://statsapi.mlb.com/api/v1.1/game/{game_pk}/feed/live/timestamps
常见 API 查询示例
以下是一些常见的 Stats API 查询示例:
-
获取 2024 年 MLB 常规赛赛程:
https://statsapi.mlb.com/api/v1/schedule?sportId=1&season=2024&gameType=R
参数解释:
sportId=1:MLB(1 代表美国职业棒球大联盟)season=2024:赛季年份gameType=R:常规赛(R = 常规赛,P = 季后赛,S = 春训)
-
获取洛杉矶道奇队 2024 年名单:
https://statsapi.mlb.com/api/v1/teams/119/roster?season=2024
参数解释:
119:洛杉矶道奇队的球队 IDseason=2024:赛季年份
-
获取球队信息:
https://statsapi.mlb.com/api/v1/teams/119
- 返回特定球队的详细信息(119 = 道奇队)
- 添加
?season=2024以获取特定赛季的球队信息
-
获取球员信息:
https://statsapi.mlb.com/api/v1/people/660271
- 返回特定球员的详细信息(660271 = 大谷翔平)
- 添加
?season=2024以获取特定赛季的球员信息
-
获取实时游戏数据:
https://statsapi.mlb.com/api/v1.1/game/716463/feed/live
- 返回特定游戏的实时 GUMBO 数据
- 游戏 PK 可以从赛程端点获取
常见查询参数:
hydrate:添加额外数据到响应中(例如,?hydrate=stats,team)fields:限制响应为特定字段season:指定赛季年份date:指定特定日期(格式:MM/DD/YYYY)
历史数据可用性
MLB 数据源根据时间段提供不同级别的历史数据粒度:
- 1901-1968:仅限比分数据
- 1969-1988:逐球数据
- 1989-2007:逐球数据
- 2008-2014:逐球数据,包含投球速度/变化信息(Pitch F/x)
- 2015-至今:逐球数据,包含增强指标:
- 投球速度
- 击球速度
- 本垒打距离
小联盟覆盖范围
- 2021:佛罗里达州联盟(A 级)添加
- 2022:太平洋海岸联盟(AAA 级)添加
- 2023:国际联盟(AAA 级)添加
访问数据集文件
所有用于黑客松的数据集都可在我们的公共 Google Cloud Storage 存储桶中获取。数据集分为以下几类:
- MLB 字幕数据
- MLB 粉丝内容互动数据
- MLB StatsAPI 文档
- 游戏数据(包括 2024 年本垒打数据集)
访问方法
-
直接浏览器访问: 通过 Google Cloud Console 访问数据集: GCP MLB Hackathon 2025 Bucket
-
命令行访问: 使用
gsutil(Google Cloud SDK 的一部分): bash下载所有文件
gsutil -m cp -r gs://gcp-mlb-hackathon-2025/* .
下载特定数据集
gsutil cp gs://gcp-mlb-hackathon-2025/datasets/2024-mlb-homeruns.csv .




