mlb-statcast-dataset
收藏Hugging Face2025-11-29 更新2025-11-30 收录
下载链接:
https://huggingface.co/datasets/jab13/mlb-statcast-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含棒球比赛详细数据的 dataset,包含了投球类型、比赛日期、球员信息、比赛事件描述等多种信息,适用于进行棒球比赛分析和研究的任务。
创建时间:
2025-11-29
原始信息汇总
MLB Statcast数据集概述
数据集基本信息
- 数据集名称: MLB Statcast数据集
- 数据量: 2,966,881个样本
- 训练集大小: 3,043,941,146字节
- 下载大小: 441,054,634字节
数据特征
数据集包含以下主要特征类别:
投球信息
- 投球类型、速度、旋转率、释放位置
- 投球轨迹参数(pfx_x、pfx_z)
- 本垒板位置坐标(plate_x、plate_z)
- 投球计数(balls、strikes)
比赛信息
- 比赛日期、类型、年份
- 局数、上下半局
- 主客队信息、比分
- 比赛ID(game_pk)
球员信息
- 球员姓名、击球员和投手ID
- 投掷和站位姿势
- 球员年龄信息
- 球员休息天数
击球结果
- 事件描述、击球类型
- 击球速度、角度、距离
- 击球位置坐标
- 防守站位
高级统计指标
- 预期击球率(estimated_ba_using_speedangle)
- 加权上垒率(woba_value)
- 胜利期望变化值
- 击球速度和挥棒长度
物理测量数据
- 初速度分量(vx0、vy0、vz0)
- 加速度分量(ax、ay、az)
- 旋转轴和旋转方向
- 释放点和延伸距离
数据配置
- 配置名称: default
- 数据文件: train分割,路径为data/train-*
搜集汇总
数据集介绍

构建方式
在棒球运动数据分析领域,mlb-statcast-dataset通过美国职业棒球大联盟的Statcast系统采集而成。该系统利用雷达与摄像头技术,实时追踪比赛中每个投球的运动轨迹与球员行为,涵盖从投球速度、旋转轴心到击球角度等多维物理参数。数据经过自动化清洗与标准化处理,确保每一条记录包含完整的比赛情境元数据,最终形成覆盖数百万次投球事件的结构化时序数据库。
特点
该数据集最显著的特征在于其极高的时空精度与全息覆盖能力。不仅记录传统比赛统计项如安打类型和得分情况,更通过三维坐标重构技术捕捉棒球在空中的复杂运动形态,包括旋转速率变化轨迹与空气动力学效应。此外,数据集创新性地融合了生物力学指标如挥棒速度与攻击角度,并引入胜率期望模型等高级衍生变量,为运动表现分析提供前所未有的深度视角。
使用方法
研究者可借助该数据集开展多维度运动科学探索,通过投球类型分类与击球效果预测构建球员表现评估体系。机器学习模型可基于释放参数序列训练投球轨迹模拟器,或利用击球初速与发射角构建打击效果预测网络。数据中的连续时序特性支持构建动态比赛情境模型,而丰富的元数据字段则为因果推断研究提供了理想的自然实验场域。
背景与挑战
背景概述
MLB Statcast数据集作为棒球运动分析领域的里程碑式资源,由美国职业棒球大联盟于2015年启动建设,融合了多普勒雷达与高速摄像技术。该数据集通过追踪投球轨迹、击球参数与球员运动数据,为量化分析棒球比赛提供了前所未有的维度。其核心价值在于通过物理建模与机器学习方法,揭示投球旋转效率、击球初速角度等关键指标对比赛结果的影响机制,推动了体育科学从经验判断向数据驱动决策的范式转变。
当前挑战
该数据集致力于解决棒球运动中的动态行为预测难题,包括投球轨迹重构、击球效果评估等复杂物理过程的建模挑战。在构建过程中面临多传感器数据同步校准、毫米级空间定位精度保持等工程技术瓶颈,同时需处理因天气条件、设备故障导致的缺失值问题。数据维度高达90余个特征字段的异构融合,以及实时流数据处理与历史档案的一致性维护,均为该数据集持续优化的核心难点。
常用场景
经典使用场景
在棒球运动分析领域,该数据集通过记录投球类型、释放速度、旋转速率等物理参数,为投手表现评估提供了量化基础。研究人员利用这些高精度数据构建投球轨迹模型,分析不同球种的运动学特征,从而揭示投球策略与击球结果之间的内在关联。
衍生相关工作
基于该数据集衍生的经典研究包括PITCHf/x系统的投球分类算法,以及Statcast平台开发的击球预期指标xBA模型。这些工作推动了体育分析领域从描述性统计向预测性分析的范式转变,催生出新一代球员价值评估体系。
数据集最近研究
最新研究方向
在棒球运动分析领域,Statcast数据集正推动投球轨迹预测与击球表现评估的前沿探索。基于多维传感器数据,研究者通过机器学习模型解析释放速度、旋转轴与击球角度的非线性关联,构建动态胜率期望框架以量化战术决策价值。随着球员生物力学特征的深化整合,该数据集已成为评估投手疲劳度与击球员适应性演变的基准工具,为职业球队的实时战术优化与长期人才管理提供数据驱动范式。
以上内容由遇见数据集搜集并总结生成



