five

ringside-analytics

收藏
Hugging Face2026-04-26 更新2026-04-27 收录
下载链接:
https://huggingface.co/datasets/datamatters24/ringside-analytics
下载链接
链接失效反馈
官方服务:
资源简介:
Ringside Analytics — 职业摔跤比赛档案是一个关系型数据集,涵盖了从1980年至今的职业摔跤历史。数据集包含292,780场比赛、611,515次选手参赛记录、12,814名摔跤手、35,064个赛事、6个推广组织、121个冠军头衔以及1,753次冠军统治记录等。数据来源于Cagematch.net的公开抓取和alexdiresta的profightdb转储,经过规范化处理后导出为Parquet文件,保留了关系结构(每个表一个文件,可通过`id`连接)。数据集适用于表格分类任务,可用于研究40多年的摔跤比赛模式、预测比赛结果等。数据覆盖范围不均匀,2000年至今的数据较为完整,1980年代的数据较少。数据集还包含用户评级的比赛质量评分,但需注意这些评分可能存在偏见。数据集采用CC0 1.0许可证发布,适用于研究和娱乐用途。

Ringside Analytics — Professional Wrestling Match Archives is a relational dataset covering the history of professional wrestling from 1980 to the present. The dataset includes 292,780 matches, 611,515 wrestler appearances, 12,814 wrestlers, 35,064 events, 6 promotions, 121 championships, and 1,753 championship reigns. The data is sourced from public scrapes of Cagematch.net and alexdirestas profightdb dump, normalized and exported as Parquet files while preserving the relational structure (one file per table, joinable by `id`). The dataset is suitable for tabular classification tasks and can be used to study over 40 years of wrestling match patterns and predict match outcomes. Data coverage is uneven, with more complete data from 2000 onwards and sparser data from the 1980s. The dataset also includes user-rated match quality scores, though these may contain biases. Released under the CC0 1.0 license, the dataset is suitable for research and entertainment purposes.
创建时间:
2026-04-20
原始信息汇总

数据集概述:Ringside Analytics — 职业摔跤比赛档案

该数据集是一个结构化的职业摔跤历史关系型快照,时间跨度从1980年至今。数据来源于公开的 Cagematch.net 页面抓取和 alexdiresta 的 profightdb 转储,经过规范化处理后,以Parquet文件格式导出,保留了关系型结构(每个表一个文件,可通过 id 连接)。

数据集规模与统计

  • 292,780 场比赛记录
  • 611,515 条摔跤手-比赛参与记录
  • 35,064 场赛事
  • 12,814 名摔跤手
  • 6 个主要摔跤联盟(WWE、AEW、WCW、ECW、NXT、TNA)
  • 121 个冠军头衔
  • 1,753 次冠军统治期
  • 631 次角色转换(正派/反派/中立)
  • 13,230 个别名记录
  • 规模分类:100K < n < 1M

文件结构与描述

文件 行数 描述
matches.parquet 292,780 每场比赛一行,包括类型、条款、时长、是否为冠军赛、Cagematch评分
match_participants.parquet 611,515 每场比赛每位摔跤手一行,result 字段为比赛结果预测的标签
wrestlers.parquet 12,814 擂台名、真实姓名、性别、首秀日期、状态
wrestler_aliases.parquet 13,230 别名及其活跃时间段
events.parquet 35,064 赛事名称、日期、场馆、城市、国家、赛事类型
promotions.parquet 6 每个联盟及其成立/解散日期
titles.parquet 121 各联盟的冠军头衔
title_reigns.parquet 1,753 冠军统治开始/结束日期及卫冕次数
alignment_turns.parquet 631 摔跤手正派/反派/中立角色转变记录
manifest.json 导出清单:行数、列名、UTC时间戳

数据架构(连接键)

promotions.id ─┬─< wrestlers.primary_promotion_id ├─< events.promotion_id ├─< titles.promotion_id └─< wrestler_aliases.promotion_id

wrestlers.id ──┬─< match_participants.wrestler_id ├─< wrestler_aliases.wrestler_id ├─< title_reigns.wrestler_id └─< alignment_turns.wrestler_id

events.id ─────┬─< matches.event_id └─< alignment_turns.event_id (nullable)

matches.id ────── match_participants.match_id

titles.id ─────── title_reigns.title_id

数据用途与注意事项

  • 该数据集是训练模型 theodorerubin/ringside-wrestling-archive-match-winner 的源数据,可用于预测比赛结果、分析剧情安排模式等。
  • 注意:职业摔跤是剧本表演,result 字段记录的是“被安排获胜”的结果,而非体育竞技胜负。
  • 时间覆盖不均:2000年至今的数据较为完整,1980年代的数据较稀疏,尤其区域性联盟。
  • 女子组样本量较小,相关模型置信区间可能较宽。
  • Cagematch评分为用户众包评分,偏向于技术表现,可能偏离娱乐/剧情价值。

数据来源与许可

  • 主要来源:Cagematch.net 公开HTML抓取(非商业用途)提供1990年至今的大部分比赛数据;alexdiresta 的 Kaggle 数据集(profightdb 转储)用于交叉验证和补充1990年前的覆盖。
  • ETL代码:开源在 GitHub 仓库 tedrubin80/wrastlingfirst
  • 许可:采用 CC0 1.0(公共领域声明)。感谢引用,但非必须。底层来源(Cagematch.net、profightdb)有其自身条款。

引用格式

bibtex @dataset{ringside_analytics_2026, author = {Rubin, Theodore}, title = {Ringside Analytics: Pro Wrestling Match Archive (1980--present)}, year = {2026}, url = {https://www.kaggle.com/datasets/theodorerubin/ringside-wrestling-archive} }

搜集汇总
数据集介绍
main_image_url
构建方式
Ringside Analytics数据集以关系型快照的形式,系统性地收录了自1980年至今的职业摔角历史数据,涵盖WWE、AEW、WCW、ECW、NXT、TNA等多个主流联盟。该数据集通过爬取公开的Cagematch.net页面以及整合alexdiresta在Kaggle上提供的profightdb转储数据构建而成。在构建过程中,采用了实体对齐技术对摔角手名称进行消歧,并将比赛类型归纳为固定的枚举类型,同时通过自然键去重方法合并跨来源的重复记录。所有原始数据首先被规范化导入至Postgres数据库,随后按表结构分别导出为Parquet格式文件,保留了完整的关联键(如id字段),使得各表之间可通过外键进行高效连接。
特点
该数据集具有显著的结构化与多元性特征,共包含约29.3万场比赛记录、61.2万条摔角手参与记录、3.5万场赛事信息以及1.28万名摔角手数据。数据以九个彼此关联的Parquet表格形式呈现,分别对应比赛、参赛者、摔角手、赛事、联盟、头衔、冠军统治期及角色转换等维度。每个表格均提供详尽字段,例如比赛类型、持续时间、是否是冠军赛、Cagematch用户评分等。此外,数据集还包含摔角手的别名、性别、出道日期及活跃状态,以及联盟的成立与解散时间,充分反映了职业摔角作为表演体育的独特剧本化本质,其中result字段标明的是剧情安排中的获胜者而非竞技结果。
使用方法
用户可通过Python的Pandas库直接读取Parquet文件,并利用数据集中预设的id外键进行多表关联分析。例如,可轻松查询指定摔角手(如The Rock)的所有比赛记录及对手信息。也可将数据加载至DuckDB等支持SQL的引擎中,执行聚合统计,如按获胜次数对摔角手排名。该数据集还提供了详细的模式图(schema)和启动查询示例,便于快速上手。对于希望构建自定义预测模型的用户,可通过重塑特征或采用该数据集的配套模型进行比赛结果预测。所有数据遵循CC0 1.0公共领域许可,允许自由使用与研究。
背景与挑战
背景概述
Ringside Analytics数据集由研究者Theodore Rubin于2026年创建,旨在系统收录1980年至今的职业摔角历史数据。该数据集整合了Cagematch.net的公开爬取数据与Kaggle平台上的profightdb转储,涵盖292,780场比赛、12,814名摔角手及35,064场赛事,横跨WWE、AEW、WCW等六大联盟。其核心研究问题聚焦于职业摔角赛事结果的预测模型构建,通过规范化关系型架构(如matches、participants、wrestlers等表)提供结构化数据支持。作为Kaggle上相关预测模型的配套数据集,它为分析四十余年间的赛程编排模式、选手胜负规律及联盟特征提供了基准数据,填补了该领域结构化时序数据的空白,对体育数据分析与叙事模式研究具有重要影响。
当前挑战
该数据集面临的首要挑战源于职业摔角的本体论悖论——比赛结果由剧本编排而非竞技表现决定,这使得基于历史数据的预测模型需谨慎区分'被安排的胜利'与真实运动竞技的差异。其次,数据覆盖存在显著时空不均匀性:2000年后的记录较为完整,而1980年代的区域性推广赛事数据稀疏,导致早期分析偏差。此外,女子组别样本量过小会引发统计推断的置信区间过宽问题。在构建过程中,跨来源的实体对齐(如摔角手别名消解)与自然键去重构成技术难题,而Cagematch用户评分作为比赛质量代理指标时,易受网络粉丝群体对技术型比赛的偏好影响,偏离娱乐性维度。
常用场景
经典使用场景
Ringside Analytics 数据集作为职业摔角领域迄今最全面的关系型档案,其经典使用场景聚焦于对摔角赛事历史的多维重建与解析。研究者可借助该数据集将1980年至今跨越WWE、AEW、WCW等主流联盟的292,780场比赛、35,064场赛事及12,814名选手的复杂关联性数据进行结构化关联分析。通过匹配、参与者、选手、赛事、头衔及角色转变等多个标准化数据表间的联接键,能系统性地追踪每位选手的职业生涯轨迹、胜负纪录、冠军统治期以及擂台角色的演化脉络。这一范式为探索职业摔角中精心编排的叙事逻辑与胜负模式提供了实证基础。
解决学术问题
该数据集解决的学术研究问题主要围绕职业摔角作为一类独特的表演性竞技的规律挖掘与模式识别。首先,它打破了以往摔角研究仅依赖零散记录或质性分析的局限,使学者能够定量探讨胜率分布、选手出场频次及角色转换等元素与观众评价之间的统计关联。其次,数据集内的时序结构(如1980至2000年间的历史变更)为纵向研究联盟策略演变、性别平等趋势以及赛事类型的盛衰周期提供了数据支持。此外,通过头衔统治期与防御次数等字段,研究者可剖析冠军制度对选手职业生涯的塑造效应,从而在体育社会学与娱乐产业分析的交叉领域贡献可复现的量化证据。
衍生相关工作
基于该数据集已衍生出一系列富有影响力的经典工作。最典型的成果是theodorerubin/ringside-wrestling-archive-match-winner预测模型,它直接利用匹配参与者表中的结果标签进行训练,实现了对赛事编排结果的高精度预估。此外,社区研究者利用数据集中的角色转变记录与选手别名信息,展开了对摔角手职业生命周期与角色稳定性的生存分析研究。在数据可视化领域,基于数据库模式搭建的交互式仪表盘(如DuckDB驱动的胜率排行榜)成为爱好者与分析师探索联盟竞争格局的标杆工具。同时,归一化过程中的实体消歧技术也为跨来源数据融合提供了可迁移的方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作