five

Match

收藏
github2025-04-23 更新2025-04-24 收录
下载链接:
https://github.com/gptilt/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
比赛数据集包含Riot API中提供的所有比赛数据。目前,数据集有以下规模:*即将推出* [`10k` 挑战者比赛](https://huggingface.co/datasets/gptilt/riot-match-challenger-10k),包含来自至少有一名挑战者玩家的排名比赛的超过20M事件。包括10个最大的地区。*即将推出* `100k` 挑战者比赛,包含来自至少有一名挑战者玩家的排名比赛的超过200M事件。包括10个最大的地区。

The competition dataset encompasses all match data provided by the Riot API. Currently, the dataset has the following scale: *To be released* the ['10k Challenger Matches'](https://huggingface.co/datasets/gptilt/riot-match-challenger-10k) containing over 20M events from ranked matches with at least one Challenger player, covering 10 of the largest regions. *To be released* the '100k Challenger Matches' containing over 200M events from ranked matches with at least one Challenger player, covering 10 of the largest regions.
创建时间:
2025-04-19
原始信息汇总

数据集概述

数据集来源

  • 发布者:GPTilt
  • 托管平台:Hugging Face
  • 数据格式:Parquet

数据集内容

Match数据集

  • 数据来源:Riot API中的比赛数据

  • 数据集版本

    • 10k Challenger matches(即将发布):包含来自至少有一名挑战者玩家的排名赛的20M+事件,涵盖10个最大地区
    • 100k Challenger matches(即将发布):包含来自至少有一名挑战者玩家的排名赛的200M+事件,涵盖10个最大地区
  • 数据表结构

    • match_metadata:比赛元数据
    • match_participants:链接比赛参与者ID与玩家PUUID,包含玩家比赛结束时的所有信息
    • match_events:包含比赛中的所有事件,包括自定义的PARTICIPANT_FRAME事件类型,所有事件中的position字段已拆分为positionXpositionY
  • 关键字段

    • 所有比赛表都有matchId列,可用于跨地区连接表
    • gameId列在不同地区间不唯一

许可证

  • 许可类型:Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)
  • 免责声明:GPTilt不受Riot Games认可,也不反映Riot Games或其官方人员的观点或意见

数据获取与处理

获取方式

  • 可直接从Hugging Face下载已发布的数据集
  • 也可通过克隆仓库并运行数据管道自行处理

数据处理工具

  • ds-cdragon:从CommunityDragon CDN获取数据
  • ds-riot-api:包含rawstg两个子命令,用于处理Riot API数据

注意事项

  • 若无生产密钥,整个ETL过程将受网络限制
  • 代码未针对性能进行特别优化,主要受API速率限制影响
搜集汇总
数据集介绍
main_image_url
构建方式
Match数据集基于Riot API提供的比赛数据构建,涵盖了多场次比赛的详细信息。数据集通过规范化、清洗和丰富处理,特别针对数据科学工作负载进行了优化。构建过程中,从Riot API获取原始数据后,经过ETL(提取、转换、加载)流程,将数据分表存储,包括比赛元数据、参与者信息和比赛事件等。数据分区处理确保跨区域数据可以无缝连接,同时通过自定义事件类型和字段拆分提升数据可用性。
特点
Match数据集以其全面性和精细化的数据处理著称。数据集包含比赛元数据、参与者信息和详细事件记录,其中事件数据特别添加了自定义的`PARTICIPANT_FRAME`类型,并对位置字段进行了拆分处理。此外,数据集的`matchId`字段设计支持跨区域数据关联,避免了`gameId`字段的区域限制问题。数据集还提供了丰富的比赛事件统计,适用于复杂的分析和建模需求。
使用方法
使用Match数据集时,用户可通过Hugging Face平台直接获取预处理的Parquet格式文件,或通过克隆仓库自行运行数据管道。数据集支持多种分析场景,用户可通过`matchId`字段关联不同表格,进行跨区域数据整合。对于高级用户,提供了命令行工具如`ds-cdragon`和`ds-riot-api`,用于从CommunityDragon和Riot API获取补充数据。数据集的网络请求设计充分考虑了API速率限制,确保数据获取的稳定性。
背景与挑战
背景概述
Match数据集是由GPTilt团队基于Riot API构建的电子竞技数据分析资源,专注于《英雄联盟》高端排位赛的赛事数据采集与分析。该数据集收录了包含挑战者段位玩家在内的排位赛对战信息,涵盖全球十大主要赛区,每条记录均包含完整的比赛元数据、玩家参与信息及动态事件流。数据以标准化parquet格式发布,并通过Hugging Face平台共享,其创新性地将游戏内事件坐标分解为X/Y轴向分量,并添加了自定义的参与者帧事件类型,为多模态游戏分析提供了结构化基础。作为非官方授权的第三方数据集,其采用CC BY-NC 4.0协议,填补了电竞领域高质量开放数据的空白。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,需解决MOBA游戏复杂状态空间的表征难题,包括高频异步事件的时空关联建模、多玩家交互行为的因果推理等;在构建过程中,受限于Riot API的区域化速率限制,数据采集需设计多线程异步调度策略,同时原始数据中的非结构化事件坐标需经算法化处理转化为可分析特征。此外,跨区域比赛ID的异构性要求设计特殊的联合查询机制,而物品事件等无位置数据的插值处理也增加了数据清洗的复杂度。
常用场景
经典使用场景
在电子竞技数据分析领域,Match数据集为研究者提供了丰富的比赛数据,涵盖了高段位玩家的对战记录及其详细事件。该数据集最经典的使用场景包括分析玩家行为模式、团队策略以及游戏内事件的时空分布。通过整合metadata、participants和events表格,研究者能够深入挖掘比赛中的关键决策点,从而揭示高水平对局的战术演变规律。
解决学术问题
Match数据集有效解决了电子竞技研究中数据获取困难的问题,为学术界提供了标准化的分析基础。其包含的精确时间戳和坐标信息,使得研究者能够定量分析游戏平衡性、玩家技能差异以及地图资源控制策略。该数据集的出现填补了电竞领域缺乏高质量开放数据的空白,推动了基于实证的战术分析与人工智能训练研究。
衍生相关工作
基于Match数据集已衍生出多项重要研究,包括玩家技能评估模型、实时胜率预测算法以及自动化解说系统开发。部分团队将其与深度学习结合,训练出能够模拟职业玩家决策的AI。这些工作不仅推动了游戏人工智能的发展,也为理解人类复杂决策过程提供了新的研究范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作