hbfreed/Picklebot-2M
收藏Hugging Face2024-02-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hbfreed/Picklebot-2M
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了2016年至2023年MLB比赛中所有列出的球和判定的好球,数据来源于Baseball Savant的Statcast Search。数据集包括日期、投球类型(如四缝快速球)、速度、旋转率、投手、击球员、区域(1-14,对应好球区位置)、计数、局数、投球结果以及投球视频链接。数据集由Henry Freed整理,采用MIT许可证。数据集结构为三个JSON文件,分为训练集(80%)、验证集(10%)和测试集(10%)。
该数据集包含了2016年至2023年MLB比赛中所有列出的球和判定的好球,数据来源于Baseball Savant的Statcast Search。数据集包括日期、投球类型(如四缝快速球)、速度、旋转率、投手、击球员、区域(1-14,对应好球区位置)、计数、局数、投球结果以及投球视频链接。数据集由Henry Freed整理,采用MIT许可证。数据集结构为三个JSON文件,分为训练集(80%)、验证集(10%)和测试集(10%)。
提供机构:
hbfreed
原始信息汇总
数据集卡片 for Dataset Name
数据集概述
包含2016年至2023年MLB比赛中的260万个球和被叫好球的片段。
数据集详情
数据集描述
该数据集包含从2016年到2023年Baseball Savant的Statcast Search中列出的所有球和被叫好球。数据集包括日期、类型(如FF,四缝线快速球)、速度、旋转率、投手、击球手、区域(1-14,对应于好球区位置)、计数、局数、投球结果和投球视频链接。
- 策划者: Henry Freed
- 许可证: MIT
用途
该数据集旨在用于通过神经网络判断球和好球,并可用于更细粒度的分类任务,如分类投球类型。
数据集结构
数据集分为三个JSON文件,分别是训练集(80%)、验证集(10%)和测试集(10%)。数据结构如下:
json
{
"date": "2017-05-06",
"pitch": "CU",
"mph": "73.6",
"spin_rate": "1997",
"pitcher": "Garza, Matt(R)",
"batter": "Jaso, John(L)",
"zone": "8",
"count": "0-1",
"inning": "Bot 5",
"pitch_result": "Called Strike",
"video_link": "https://baseballsavant.mlb.com/sporty-videos?playId=e790b6cf-7ac4-45b8-8cd3-9cef03d759cb"
}
数据集创建
源数据
数据从Baseball Savant的Statcast Search中抓取。
源数据生产者
源数据由Baseball Savant和MLB/广播公司创建。
偏差、风险和限制
该数据集存在不平衡问题,约三分之二的投球是球,几乎一半是四缝线快速球。处理这些不平衡时应谨慎。
图表
| 投球结果分布 | 投球类型分布 | 投球区域分布 |
|---|---|---|
![]() |
![]() |
![]() |






