datamatters24/ringside-analytics
收藏Hugging Face2026-04-26 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/datamatters24/ringside-analytics
下载链接
链接失效反馈官方服务:
资源简介:
Ringside Analytics职业摔角比赛档案是一个从1980年至今的职业摔角历史关系快照,包含约292,000场比赛、611,000次摔角手比赛参与、35,000个事件和12,800名摔角手,涵盖WWE、AEW、WCW、ECW、NXT、TNA等多个联盟。数据来源于公开的Cagematch.net抓取和alexdiresta的profightdb转储,经过规范化处理为Postgres模式,并导出为Parquet文件,保留了关系结构(每个表一个文件,可通过id进行连接)。该数据集是训练模型的真实来源,可用于训练自定义模型、重塑特征或探索40多年的比赛模式。
---
license: CC0-1.0(知识共享公共领域贡献许可)
task_categories:
- 表格分类(tabular-classification)
language:
- 英语
tags:
- 体育
- 职业摔跤
- WWE(世界摔角娱乐)
- AEW(全精英摔角)
- WCW(世界冠军摔角)
- ECW(极限冠军摔角)
- 比赛数据
- 关系型数据
pretty_name: Ringside Analytics — 职业摔跤比赛档案库
size_categories:
- 10万<n<100万
configs:
- config_name: matches(比赛表)
data_files: matches.parquet
- config_name: match_participants(参赛记录表)
data_files: match_participants.parquet
- config_name: wrestlers(选手表)
data_files: wrestlers.parquet
- config_name: events(赛事表)
data_files: events.parquet
- config_name: promotions(联盟表)
data_files: promotions.parquet
- config_name: wrestler_aliases(选手别名表)
data_files: wrestler_aliases.parquet
- config_name: titles(冠军腰带表)
data_files: titles.parquet
- config_name: title_reigns(冠军卫冕表)
data_files: title_reigns.parquet
- config_name: alignment_turns(角色转变表)
data_files: alignment_turns.parquet
---
# Ringside Analytics — 职业摔跤比赛档案库
本数据集为1980年至今的职业摔跤历史关系型快照,涵盖WWE(世界摔角娱乐)、AEW(全精英摔角)、WCW(世界冠军摔角)、ECW(极限冠军摔角)、NXT(WWE发展联盟)、TNA(全球摔角联盟,现Impact Wrestling)等联盟的**29.2万场比赛、61.1万场选手参赛记录、3.5万场赛事以及1.28万名职业摔跤选手**。数据源自公开的Cagematch.net网站爬取内容与alexdiresta发布的profightdb数据集导出文件,经规范化处理为Postgres(关系型数据库管理系统)模式,并导出为保留关系结构的Parquet格式文件(单表对应一个文件,可通过`id`字段进行关联连接)。
本数据集为Kaggle平台上[theodorerubin/ringside-wrestling-archive-match-winner](https://www.kaggle.com/models/theodorerubin/ringside-wrestling-archive-match-winner)预训练模型的权威配套数据集。若您希望训练自有模型、重构特征工程,或是探索跨越40余年的赛事编排规律,本数据集即为理想起点。
## 文件清单
| 数据文件 | 记录行数 | 描述 |
|---|---:|---|
| `matches.parquet` | 292,780 | 每条记录对应一场比赛,包含比赛类型、赛制、时长、冠军赛标记以及Cagematch网站评分。 |
| `match_participants.parquet` | 611,515 | 每条记录对应一位选手的单场参赛信息,其中`result`字段为比赛结果预测的标签。 |
| `wrestlers.parquet` | 12,814 | 包含选手擂台名、真实姓名、性别、出道日期以及选手状态。 |
| `wrestler_aliases.parquet` | 13,230 | 记录选手的别名擂台名及其活跃时间段。 |
| `events.parquet` | 35,064 | 包含赛事名称、举办日期、场馆、城市、国家以及赛事类型。 |
| `promotions.parquet` | 6 | 包含WWE、AEW、WCW、ECW、NXT、TNA六大联盟的成立与解散日期。 |
| `titles.parquet` | 121 | 记录各联盟旗下的冠军腰带信息。 |
| `title_reigns.parquet` | 1,753 | 包含冠军卫冕周期的开始与结束日期以及卫冕次数。 |
| `alignment_turns.parquet` | 631 | 记录每位选手的角色转变记录(正派/反派/亦正亦邪)。 |
| `manifest.json` | — | 导出清单文件,包含各表的记录行数、字段列表以及UTC时间戳。 |
## 关联模式(连接键)
以下为各表之间的关联关系,箭头左侧为主表主键,右侧为从表外键:
promotions.id ─┬─< wrestlers.primary_promotion_id
├─< events.promotion_id
├─< titles.promotion_id
└─< wrestler_aliases.promotion_id
wrestlers.id ──┬─< match_participants.wrestler_id
├─< wrestler_aliases.wrestler_id
├─< title_reigns.wrestler_id
└─< alignment_turns.wrestler_id
events.id ─────┬─< matches.event_id
└─< alignment_turns.event_id (可为空)
matches.id ────── match_participants.match_id
titles.id ─────── title_reigns.title_id
## 基础示例查询
### Python 示例
python
import pandas as pd
# 读取各数据表
matches = pd.read_parquet("matches.parquet")
participants = pd.read_parquet("match_participants.parquet")
wrestlers = pd.read_parquet("wrestlers.parquet")
# 查询“The Rock”参与的所有比赛及其对手
rock_id = wrestlers.query("ring_name == 'The Rock'")["id"].iloc[0]
rock_matches = participants[participants["wrestler_id"] == rock_id]
### SQL 示例(DuckDB)
sql
-- 统计获胜次数最多的前20位选手
SELECT w.ring_name, COUNT(*) AS wins
FROM match_participants mp
JOIN wrestlers w ON w.id = mp.wrestler_id
WHERE mp.result = 'win'
GROUP BY 1
ORDER BY 2 DESC
LIMIT 20;
## 数据来源
- **Cagematch.net**(公开网页爬取,非商业用途):1990年至今的绝大多数比赛级数据。
- **alexdiresta/all-wwe-and-wwf-matches** Kaggle数据集(profightdb导出文件):用于交叉验证以及补充1990年之前的赛事数据。
- **规范化与去重**:对选手姓名进行实体消歧,将比赛类型归类至固定枚举值,并通过自然键去重以合并多源数据记录。
本数据集的ETL代码与爬虫工具已开源,仓库地址为[tedrubin80/wrastlingfirst](https://github.com/tedrubin80/wrastlingfirst)。
## 数据集说明与注意事项
- **剧情竞技,而非真实体育**:职业摔跤为脚本化表演,`result`字段记录的是**剧情中被安排获胜的选手**,而非真实体育竞赛中的胜者。
- **时间覆盖不均**:2000年至今的数据覆盖较为全面;1980年代的数据相对匮乏,尤其是区域性联盟的赛事记录。
- **性别分布失衡**:女子摔角部门的样本量较小,基于该数据集训练的女子部门相关模型置信区间会更宽。
- **评分源自众包**:Cagematch网站的用户评分仅代表互联网摔角粉丝对比赛质量的主观感知,更偏向于技术动作观赏性,而非娱乐性或剧情内容。
## 许可协议
本数据集采用**CC0-1.0**(知识共享公共领域贡献许可)协议发布,您可自由使用、修改与分发,无需注明原作者。需注意的是,本数据集的原始数据源(Cagematch.net、profightdb)有其自身的使用条款,本档案库为衍生作品,仅可用于研究与娱乐用途。
## 引用格式
bibtex
@dataset{ringside_analytics_2026,
author = {Rubin, Theodore},
title = {Ringside Analytics:职业摔跤比赛档案库(1980年至今)},
year = {2026},
url = {https://www.kaggle.com/datasets/theodorerubin/ringside-wrestling-archive}
}
提供机构:
datamatters24



