riot-match-challenger-10k

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/gptilt/riot-match-challenger-10k

下载链接

链接失效反馈

官方服务：

资源简介：

《英雄联盟》治疗师级别10000场比赛数据集，包含来自10个不同区域的比赛详细信息，适用于游戏动态研究和分析。

A 10,000-match dataset of League of Legends matches focused on healer role gameplay, containing detailed match data from 10 distinct regional servers, applicable to game dynamics research and analysis.

创建时间：

2025-04-18

原始信息汇总

数据集概述：10K League of Legends Challenger Matches

数据集基本信息

名称：10K League of Legends Challenger Matches
多语言性：单语（monolingual）
简介：包含来自10个不同地区的10,000场英雄联盟（League of Legends）挑战者（Challenger）段位的排位赛数据。
许可：Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)
语言：主要为数值、分类ID、时间戳和坐标数据，文本字段可能源自多种游戏客户端语言，但英语（en）是最常见的参考语言。

数据集详情

数据集描述

内容：包含10,000场英雄联盟挑战者段位的比赛数据，通过Riot Games官方API收集和处理。
数据结构：
- matches：比赛级别的元数据（如matchId、gameDuration、gameVersion、winningTeam）。
- participants：每场比赛的10名参与者的详细信息（如puuid、championId、teamId、击杀、死亡、助攻、金币获取、物品等）。
- events：游戏内事件的详细时间线（如CHAMPION_KILL、ITEM_PURCHASED、WARD_PLACED、BUILDING_KILL、ELITE_MONSTER_KILL）以及参与者状态的周期性快照（participantFrames）。

数据集创建

目的：为英雄联盟研究提供大规模、公开且易于分析的数据集，促进对游戏复杂动态的理解。
数据来源：
- Riot Games API和CDragon。
- 数据收集步骤包括种子选择、比赛历史获取、比赛和时间线数据下载、原始存储、数据转换和输出。
数据生产者：英雄联盟高段位玩家和Riot Games API。

使用范围

直接用途

非商业研究、数据分析、游戏动态理解、战略模式分析、英雄互动研究、游戏流程分析。
适合统计分析和机器学习模型训练（如游戏状态表示、事件序列建模等）。

超出范围用途

违反Riot Games API服务条款或开发者政策的用途。
不得用于创建作弊工具、机器人或未经授权的实时教练工具。

偏见、风险与限制

技能段位偏见：数据仅来自挑战者段位，可能不适用于其他段位。
地区偏见：数据来自多个地区，但分布可能不均衡。
版本偏见：数据反映特定游戏版本，不同版本的游戏平衡可能不同。
缺失上下文：缺乏玩家沟通、疲劳等外部信息。
API限制：数据受Riot Games API的准确性和粒度限制。

引用

bibtex @misc{gptilt_10k_league_of_legends_challenger_matches, author = { GPTilt Contributors }, title = { 10K League of Legends Challenger Matches }, year = { 2025 }, publisher = { Hugging Face }, journal = { Hugging Face Hub }, url = { https://huggingface.co/datasets/gptilt/riot-match-challenger-10k } }

搜集汇总

数据集介绍

构建方式

该数据集通过Riot Games官方API精心收集并处理，聚焦于《英雄联盟》挑战者段位的高水平对局。数据采集过程始于利用league-v4接口识别多个区域的顶尖玩家，继而通过match-v5接口获取其近期对战记录，最终解析并结构化存储为三大核心数据表。数据处理采用PyArrow等工具进行高效转换，确保原始JSON响应被精准解析为匹配元数据、参与者详情和事件时间轴的三维架构，并以Parquet格式分区存储，充分保留了高段位对局的战术细节。

特点

数据集囊括全球十大赛区共计一万场顶尖对局，其核心价值体现在三个维度：宏观层面提供对战时长、版本号等元数据；中观层面记录每位玩家的英雄选择、装备路径等完整对局轨迹；微观层面则精确到秒级事件如击杀、插眼等战术动作。特别值得注意的是，数据集包含每分钟的角色状态快照，为研究游戏动态平衡提供了独特视角，但需注意其仅反映特定版本下高段位玩家的战术特征，存在明显的版本和段位局限性。

使用方法

研究者可通过Hugging Face平台获取该数据集，建议优先使用支持Parquet格式的工具进行解析。典型应用场景包括：基于matches表分析版本对游戏时长的影响，利用participants表构建英雄强度评估模型，或通过events表训练时序预测算法。需特别注意遵守Riot Games的非商业使用条款，所有分析应明确标注数据来源及段位局限性，避免将高段位结论泛化至其他玩家群体。对于事件序列建模等复杂任务，建议结合gameVersion字段进行版本隔离分析以确保结论有效性。

背景与挑战

背景概述

《10K League of Legends Challenger Matches》数据集由GPTilt项目团队于2025年构建，旨在为《英雄联盟》游戏研究提供高质量、大规模且公开可用的竞技数据分析资源。该数据集聚焦全球10个赛区的顶尖段位（挑战者段位）对战记录，通过Riot Games官方API采集了1万场排位赛的完整元数据、参与者信息及事件时间序列。作为GPTilt开源计划的重要组成部分，该数据集填补了MOBA类游戏精细化研究的数据空白，为学术界探索高段位玩家的战术执行、英雄交互机制及游戏状态建模提供了基础支撑。其多区域覆盖特性使得跨文化电竞策略比较研究成为可能，已成为游戏数据分析领域的重要基准数据集之一。

当前挑战

该数据集面临的核心挑战主要体现在研究适用性与数据完整性两个维度。在领域问题层面，挑战者段位特有的战术体系导致研究成果难以泛化至其他技能分段的玩家群体，且不同赛区的版本迭代差异（通过gameVersion字段体现）会引入平衡性变动噪声。数据构建过程中，API速率限制制约了更大规模数据采集，而事件时序数据中缺失语音交流等情境信息，使得完整还原战术决策链条存在困难。此外，参与者PUUID的伪匿名特性虽保护隐私，但为跨赛季玩家行为追踪研究带来数据连续性挑战。

常用场景

经典使用场景

在电子竞技数据分析领域，riot-match-challenger-10k数据集为研究《英雄联盟》高端局竞技模式提供了重要基础。该数据集通过记录挑战者段位对局的详细事件序列与玩家状态，使得研究者能够深入分析高端玩家的决策模式、英雄选择偏好以及关键游戏事件的时间分布特征，为构建游戏内行为预测模型提供了数据支撑。

实际应用

职业电竞战队分析师可借助该数据集建立战术评估体系，通过挖掘高端局的装备购买时序、地图资源控制模式等特征，优化训练方案。游戏平衡设计师能够量化分析不同版本更新对高端玩家行为的影响，为版本调整提供数据参考。教育机构亦可将其作为游戏人工智能课程的典型案例，培养学生处理复杂时序数据的能力。

衍生相关工作

基于该数据集已衍生出多项创新研究，包括使用Transformer架构构建游戏事件预测模型LLoLM、开发基于深度强化学习的战术推荐系统TactiGen等。部分工作进一步扩展了原始数据的应用维度，如将事件序列与计算机视觉技术结合，实现了游戏状态的可视化重建，为电竞解说辅助系统提供了技术基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集