five

datamatters24/ringside-analytics

收藏
Hugging Face2026-04-26 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/datamatters24/ringside-analytics
下载链接
链接失效反馈
官方服务:
资源简介:
Ringside Analytics职业摔角比赛档案是一个从1980年至今的职业摔角历史关系快照,包含约292,000场比赛、611,000次摔角手比赛参与、35,000个事件和12,800名摔角手,涵盖WWE、AEW、WCW、ECW、NXT、TNA等多个联盟。数据来源于公开的Cagematch.net抓取和alexdiresta的profightdb转储,经过规范化处理为Postgres模式,并导出为Parquet文件,保留了关系结构(每个表一个文件,可通过id进行连接)。该数据集是训练模型的真实来源,可用于训练自定义模型、重塑特征或探索40多年的比赛模式。

--- license: CC0-1.0(知识共享公共领域贡献许可) task_categories: - 表格分类(tabular-classification) language: - 英语 tags: - 体育 - 职业摔跤 - WWE(世界摔角娱乐) - AEW(全精英摔角) - WCW(世界冠军摔角) - ECW(极限冠军摔角) - 比赛数据 - 关系型数据 pretty_name: Ringside Analytics — 职业摔跤比赛档案库 size_categories: - 10万<n<100万 configs: - config_name: matches(比赛表) data_files: matches.parquet - config_name: match_participants(参赛记录表) data_files: match_participants.parquet - config_name: wrestlers(选手表) data_files: wrestlers.parquet - config_name: events(赛事表) data_files: events.parquet - config_name: promotions(联盟表) data_files: promotions.parquet - config_name: wrestler_aliases(选手别名表) data_files: wrestler_aliases.parquet - config_name: titles(冠军腰带表) data_files: titles.parquet - config_name: title_reigns(冠军卫冕表) data_files: title_reigns.parquet - config_name: alignment_turns(角色转变表) data_files: alignment_turns.parquet --- # Ringside Analytics — 职业摔跤比赛档案库 本数据集为1980年至今的职业摔跤历史关系型快照,涵盖WWE(世界摔角娱乐)、AEW(全精英摔角)、WCW(世界冠军摔角)、ECW(极限冠军摔角)、NXT(WWE发展联盟)、TNA(全球摔角联盟,现Impact Wrestling)等联盟的**29.2万场比赛、61.1万场选手参赛记录、3.5万场赛事以及1.28万名职业摔跤选手**。数据源自公开的Cagematch.net网站爬取内容与alexdiresta发布的profightdb数据集导出文件,经规范化处理为Postgres(关系型数据库管理系统)模式,并导出为保留关系结构的Parquet格式文件(单表对应一个文件,可通过`id`字段进行关联连接)。 本数据集为Kaggle平台上[theodorerubin/ringside-wrestling-archive-match-winner](https://www.kaggle.com/models/theodorerubin/ringside-wrestling-archive-match-winner)预训练模型的权威配套数据集。若您希望训练自有模型、重构特征工程,或是探索跨越40余年的赛事编排规律,本数据集即为理想起点。 ## 文件清单 | 数据文件 | 记录行数 | 描述 | |---|---:|---| | `matches.parquet` | 292,780 | 每条记录对应一场比赛,包含比赛类型、赛制、时长、冠军赛标记以及Cagematch网站评分。 | | `match_participants.parquet` | 611,515 | 每条记录对应一位选手的单场参赛信息,其中`result`字段为比赛结果预测的标签。 | | `wrestlers.parquet` | 12,814 | 包含选手擂台名、真实姓名、性别、出道日期以及选手状态。 | | `wrestler_aliases.parquet` | 13,230 | 记录选手的别名擂台名及其活跃时间段。 | | `events.parquet` | 35,064 | 包含赛事名称、举办日期、场馆、城市、国家以及赛事类型。 | | `promotions.parquet` | 6 | 包含WWE、AEW、WCW、ECW、NXT、TNA六大联盟的成立与解散日期。 | | `titles.parquet` | 121 | 记录各联盟旗下的冠军腰带信息。 | | `title_reigns.parquet` | 1,753 | 包含冠军卫冕周期的开始与结束日期以及卫冕次数。 | | `alignment_turns.parquet` | 631 | 记录每位选手的角色转变记录(正派/反派/亦正亦邪)。 | | `manifest.json` | — | 导出清单文件,包含各表的记录行数、字段列表以及UTC时间戳。 | ## 关联模式(连接键) 以下为各表之间的关联关系,箭头左侧为主表主键,右侧为从表外键: promotions.id ─┬─< wrestlers.primary_promotion_id ├─< events.promotion_id ├─< titles.promotion_id └─< wrestler_aliases.promotion_id wrestlers.id ──┬─< match_participants.wrestler_id ├─< wrestler_aliases.wrestler_id ├─< title_reigns.wrestler_id └─< alignment_turns.wrestler_id events.id ─────┬─< matches.event_id └─< alignment_turns.event_id (可为空) matches.id ────── match_participants.match_id titles.id ─────── title_reigns.title_id ## 基础示例查询 ### Python 示例 python import pandas as pd # 读取各数据表 matches = pd.read_parquet("matches.parquet") participants = pd.read_parquet("match_participants.parquet") wrestlers = pd.read_parquet("wrestlers.parquet") # 查询“The Rock”参与的所有比赛及其对手 rock_id = wrestlers.query("ring_name == 'The Rock'")["id"].iloc[0] rock_matches = participants[participants["wrestler_id"] == rock_id] ### SQL 示例(DuckDB) sql -- 统计获胜次数最多的前20位选手 SELECT w.ring_name, COUNT(*) AS wins FROM match_participants mp JOIN wrestlers w ON w.id = mp.wrestler_id WHERE mp.result = 'win' GROUP BY 1 ORDER BY 2 DESC LIMIT 20; ## 数据来源 - **Cagematch.net**(公开网页爬取,非商业用途):1990年至今的绝大多数比赛级数据。 - **alexdiresta/all-wwe-and-wwf-matches** Kaggle数据集(profightdb导出文件):用于交叉验证以及补充1990年之前的赛事数据。 - **规范化与去重**:对选手姓名进行实体消歧,将比赛类型归类至固定枚举值,并通过自然键去重以合并多源数据记录。 本数据集的ETL代码与爬虫工具已开源,仓库地址为[tedrubin80/wrastlingfirst](https://github.com/tedrubin80/wrastlingfirst)。 ## 数据集说明与注意事项 - **剧情竞技,而非真实体育**:职业摔跤为脚本化表演,`result`字段记录的是**剧情中被安排获胜的选手**,而非真实体育竞赛中的胜者。 - **时间覆盖不均**:2000年至今的数据覆盖较为全面;1980年代的数据相对匮乏,尤其是区域性联盟的赛事记录。 - **性别分布失衡**:女子摔角部门的样本量较小,基于该数据集训练的女子部门相关模型置信区间会更宽。 - **评分源自众包**:Cagematch网站的用户评分仅代表互联网摔角粉丝对比赛质量的主观感知,更偏向于技术动作观赏性,而非娱乐性或剧情内容。 ## 许可协议 本数据集采用**CC0-1.0**(知识共享公共领域贡献许可)协议发布,您可自由使用、修改与分发,无需注明原作者。需注意的是,本数据集的原始数据源(Cagematch.net、profightdb)有其自身的使用条款,本档案库为衍生作品,仅可用于研究与娱乐用途。 ## 引用格式 bibtex @dataset{ringside_analytics_2026, author = {Rubin, Theodore}, title = {Ringside Analytics:职业摔跤比赛档案库(1980年至今)}, year = {2026}, url = {https://www.kaggle.com/datasets/theodorerubin/ringside-wrestling-archive} }
提供机构:
datamatters24
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作