five

MLB GUMBO Data

收藏
github2024-12-14 更新2024-12-15 收录
下载链接:
https://github.com/MajorLeagueBaseball/google-cloud-mlb-hackathon
下载链接
链接失效反馈
官方服务:
资源简介:
MLB GUMBO(Grand Unified Master Baseball Object)实时数据流提供了一个标准化的JSON响应,总结了每次更新时所选游戏的整个状态。与之前的实时事件数据流不同,GUMBO在每次对象创建时提供完整的游戏信息,而不是增量更新。

MLB GUMBO (Grand Unified Master Baseball Object) real-time data stream provides a standardized JSON response that summarizes the full state of the selected game at each update. Unlike prior real-time event data streams, GUMBO delivers complete game information rather than incremental updates upon each object creation.
创建时间:
2024-12-07
原始信息汇总

Google Cloud x MLB Hackathon 数据集概述

MLB GUMBO 数据访问

关于 GUMBO

GUMBO(Grand Unified Master Baseball Object)实时数据源提供了一个标准化的 JSON 响应,每次更新时总结所选游戏的整个状态。与之前的实时事件数据源不同,GUMBO 在每次对象创建时提供完整的游戏信息,而不是增量更新。

主要优势

  • 完整的游戏状态:无需在本地维护游戏状态或基于消息序列构建,每个 GUMBO 对象都包含整个游戏的完整和当前数据集。
  • 标准 JSON 格式:GUMBO 遵循真正的 JSON 标准,与之前的格式不同。
  • 灵活的访问方法
    • Websocket 监听器(每 1-2 秒推送更新)
    • Stats API(每 12 秒拉取更新)
  • 开发友好:随时使用实际生产数据进行开发,无需等待测试数据交付。

API 端点

访问 GUMBO 数据的基 URL(将 {game_pk} 替换为特定游戏 ID):

  1. 当前游戏状态

    https://statsapi.mlb.com/api/v1.1/game/{game_pk}/feed/live

  2. 特定游戏时间戳

    https://statsapi.mlb.com/api/v1.1/game/{game_pk}/feed/live?timecode=yyyymmdd_######

  3. 游戏更新时间戳列表

    https://statsapi.mlb.com/api/v1.1/game/{game_pk}/feed/live/timestamps

常见 API 查询示例

以下是一些常见的 Stats API 查询示例:

  1. 获取 2024 年 MLB 常规赛赛程

    https://statsapi.mlb.com/api/v1/schedule?sportId=1&season=2024&gameType=R

    参数解释:

    • sportId=1:MLB(1 代表美国职业棒球大联盟)
    • season=2024:赛季年份
    • gameType=R:常规赛(R = 常规赛,P = 季后赛,S = 春训)
  2. 获取洛杉矶道奇队 2024 年名单

    https://statsapi.mlb.com/api/v1/teams/119/roster?season=2024

    参数解释:

    • 119:洛杉矶道奇队的球队 ID
    • season=2024:赛季年份
  3. 获取球队信息

    https://statsapi.mlb.com/api/v1/teams/119

    • 返回特定球队的详细信息(119 = 道奇队)
    • 添加 ?season=2024 以获取特定赛季的球队信息
  4. 获取球员信息

    https://statsapi.mlb.com/api/v1/people/660271

    • 返回特定球员的详细信息(660271 = 大谷翔平)
    • 添加 ?season=2024 以获取特定赛季的球员信息
  5. 获取实时游戏数据

    https://statsapi.mlb.com/api/v1.1/game/716463/feed/live

    • 返回特定游戏的实时 GUMBO 数据
    • 游戏 PK 可以从赛程端点获取

常见查询参数:

  • hydrate:添加额外数据到响应中(例如,?hydrate=stats,team
  • fields:限制响应为特定字段
  • season:指定赛季年份
  • date:指定特定日期(格式:MM/DD/YYYY)

历史数据可用性

MLB 数据源根据时间段提供不同级别的历史数据粒度:

  • 1901-1968:仅限比分数据
  • 1969-1988:逐球数据
  • 1989-2007:逐球数据
  • 2008-2014:逐球数据,包含投球速度/变化信息(Pitch F/x)
  • 2015-至今:逐球数据,包含增强指标:
    • 投球速度
    • 击球速度
    • 本垒打距离

小联盟覆盖范围

  • 2021:佛罗里达州联盟(A 级)添加
  • 2022:太平洋海岸联盟(AAA 级)添加
  • 2023:国际联盟(AAA 级)添加

访问数据集文件

所有用于黑客松的数据集都可在我们的公共 Google Cloud Storage 存储桶中获取。数据集分为以下几类:

  • MLB 字幕数据
  • MLB 粉丝内容互动数据
  • MLB StatsAPI 文档
  • 游戏数据(包括 2024 年本垒打数据集)

访问方法

  1. 直接浏览器访问: 通过 Google Cloud Console 访问数据集: GCP MLB Hackathon 2025 Bucket

  2. 命令行访问: 使用 gsutil(Google Cloud SDK 的一部分): bash

    下载所有文件

    gsutil -m cp -r gs://gcp-mlb-hackathon-2025/* .

    下载特定数据集

    gsutil cp gs://gcp-mlb-hackathon-2025/datasets/2024-mlb-homeruns.csv .

搜集汇总
数据集介绍
main_image_url
构建方式
MLB GUMBO数据集通过MLB的GUMBO(Grand Unified Master Baseball Object)实时数据流构建,该数据流以标准化的JSON格式提供所选比赛的完整状态。与以往的实时事件数据流不同,GUMBO在每次更新时提供完整的比赛信息,而非增量更新。数据集通过Websocket监听器和Stats API两种方式提供,前者每1-2秒推送更新,后者每12秒拉取更新,确保数据的实时性和完整性。
使用方法
MLB GUMBO数据集可通过API端点访问,开发者可以使用特定的游戏ID(game_pk)获取当前比赛状态、特定时间戳的比赛数据或比赛更新时间戳列表。此外,数据集还提供了丰富的查询参数,如hydrate、fields、season和date,以便用户根据需求定制数据响应。开发者可以使用Python的requests库或其他工具如curl来获取数据,并根据提供的文档进行进一步的开发和分析。
背景与挑战
背景概述
MLB GUMBO数据集是由美国职业棒球大联盟(MLB)与Google Cloud合作推出的一个重要数据源,旨在为开发者提供标准化、实时更新的棒球比赛数据。该数据集的核心是GUMBO(Grand Unified Master Baseball Object)实时数据流,它以JSON格式呈现,涵盖了比赛的全局状态,而非传统的增量更新。MLB GUMBO数据集的推出,标志着棒球数据分析领域的一次重大进步,尤其是在实时数据处理和标准化方面。通过提供完整的比赛状态信息,GUMBO数据集为开发者提供了极大的灵活性和便利性,使其能够在无需本地维护游戏状态的情况下,直接获取最新的比赛数据。该数据集的发布时间与Google Cloud x MLB Hackathon活动紧密相关,旨在为参赛者提供丰富的数据资源,推动棒球数据分析的创新与应用。
当前挑战
MLB GUMBO数据集在提供实时、完整比赛数据的同时,也面临着诸多挑战。首先,数据的高频率更新(每1-2秒一次)对数据处理和存储提出了极高的要求,尤其是在大规模并发访问的情况下,如何确保数据的实时性和一致性是一个关键问题。其次,GUMBO数据集的复杂结构和丰富的信息量,使得数据解析和处理变得相对复杂,开发者需要具备较强的技术能力来有效利用这些数据。此外,尽管GUMBO提供了历史数据的访问,但不同时间段的数据粒度差异较大,从简单的比分数据到详细的投球速度和击球信息,如何整合这些不同层次的历史数据也是一个技术挑战。最后,棒球数据的特殊性,如专业术语和统计指标的复杂性,要求开发者具备一定的棒球知识背景,才能更好地理解和应用这些数据。
常用场景
经典使用场景
MLB GUMBO数据集的经典使用场景主要集中在实时棒球比赛数据的分析与可视化。通过GUMBO提供的完整比赛状态数据,研究人员和开发者可以实时获取比赛中的关键信息,如球员表现、比分变化、投球速度等。这些数据可用于构建实时比分应用、球员表现分析工具以及比赛策略优化系统。此外,GUMBO的标准化JSON格式使得数据处理和集成更加便捷,适用于多种开发环境。
解决学术问题
MLB GUMBO数据集在学术研究中解决了多个关键问题。首先,它提供了完整的比赛状态数据,避免了传统数据源中需要通过增量更新来维护比赛状态的复杂性。其次,GUMBO的高频率更新机制(每1-2秒)使得研究人员能够捕捉到比赛中的瞬时变化,这对于研究球员表现、比赛策略和观众行为具有重要意义。此外,GUMBO的历史数据覆盖范围广泛,从1901年至今的不同粒度数据为历史比赛分析提供了丰富的资源。
实际应用
在实际应用中,MLB GUMBO数据集被广泛用于体育分析、媒体传播和球迷互动平台。例如,体育媒体可以利用GUMBO数据实时更新比赛比分和关键事件,提升观众的观看体验。同时,球队和教练团队可以利用这些数据进行战术分析和球员表现评估,从而优化比赛策略。此外,GUMBO数据还可用于开发球迷互动应用,如实时投票、预测比赛结果等,增强球迷的参与感和忠诚度。
数据集最近研究
最新研究方向
MLB GUMBO数据集在体育数据分析领域展现了显著的前沿研究潜力。其提供的完整比赛状态数据和标准化的JSON格式,使得研究人员能够更高效地进行实时比赛分析和历史数据挖掘。特别是在机器学习和大数据技术的推动下,MLB GUMBO数据集被广泛应用于预测模型构建、球员表现评估以及比赛策略优化等方面。此外,该数据集的灵活访问方式和丰富的历史数据粒度,为跨学科研究提供了坚实基础,尤其是在结合计算机视觉和自然语言处理技术进行比赛视频分析和球迷互动数据挖掘方面,展现了巨大的应用前景。MLB GUMBO数据集的开放性和高质量数据,进一步推动了体育科技领域的创新与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作