five

hbfreed/Picklebot-2M

收藏
Hugging Face2024-02-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hbfreed/Picklebot-2M
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了2016年至2023年MLB比赛中所有列出的球和判定的好球,数据来源于Baseball Savant的Statcast Search。数据集包括日期、投球类型(如四缝快速球)、速度、旋转率、投手、击球员、区域(1-14,对应好球区位置)、计数、局数、投球结果以及投球视频链接。数据集由Henry Freed整理,采用MIT许可证。数据集结构为三个JSON文件,分为训练集(80%)、验证集(10%)和测试集(10%)。

该数据集包含了2016年至2023年MLB比赛中所有列出的球和判定的好球,数据来源于Baseball Savant的Statcast Search。数据集包括日期、投球类型(如四缝快速球)、速度、旋转率、投手、击球员、区域(1-14,对应好球区位置)、计数、局数、投球结果以及投球视频链接。数据集由Henry Freed整理,采用MIT许可证。数据集结构为三个JSON文件,分为训练集(80%)、验证集(10%)和测试集(10%)。
提供机构:
hbfreed
原始信息汇总

数据集卡片 for Dataset Name

数据集概述

包含2016年至2023年MLB比赛中的260万个球和被叫好球的片段。

数据集详情

数据集描述

该数据集包含从2016年到2023年Baseball Savant的Statcast Search中列出的所有球和被叫好球。数据集包括日期、类型(如FF,四缝线快速球)、速度、旋转率、投手、击球手、区域(1-14,对应于好球区位置)、计数、局数、投球结果和投球视频链接。

  • 策划者: Henry Freed
  • 许可证: MIT

用途

该数据集旨在用于通过神经网络判断球和好球,并可用于更细粒度的分类任务,如分类投球类型。

数据集结构

数据集分为三个JSON文件,分别是训练集(80%)、验证集(10%)和测试集(10%)。数据结构如下:

json { "date": "2017-05-06",
"pitch": "CU", "mph": "73.6", "spin_rate": "1997", "pitcher": "Garza, Matt(R)", "batter": "Jaso, John(L)", "zone": "8", "count": "0-1", "inning": "Bot 5", "pitch_result": "Called Strike", "video_link": "https://baseballsavant.mlb.com/sporty-videos?playId=e790b6cf-7ac4-45b8-8cd3-9cef03d759cb" }

数据集创建

源数据

数据从Baseball Savant的Statcast Search中抓取。

源数据生产者

源数据由Baseball Savant和MLB/广播公司创建。

偏差、风险和限制

该数据集存在不平衡问题,约三分之二的投球是球,几乎一半是四缝线快速球。处理这些不平衡时应谨慎。

图表

投球结果分布 投球类型分布 投球区域分布
pitch results pitch types pitch zones
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作