hehehdvc429342342341/game-telemetry-data

Name: hehehdvc429342342341/game-telemetry-data
Creator: hehehdvc429342342341
Published: 2026-05-02 08:01:39
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/hehehdvc429342342341/game-telemetry-data

下载链接

链接失效反馈

官方服务：

资源简介：

用于玩家留存和PvP参与因果分析的遥测数据集。

Telemetry dataset for causal analysis of player retention and PvP engagement.

提供机构：

hehehdvc429342342341

搜集汇总

数据集介绍

构建方式

该数据集基于游戏遥测技术构建，聚焦于因果推断场景下的玩家留存与PvP参与度分析。研究团队通过采集玩家在游戏过程中的行为轨迹与活动记录，系统性地构建了一套涵盖多维度变量的结构化数据体系。数据集包含6项核心特征，分别为二元变量web3钱包连接状态、累计会话次数、新手引导阶段投入时长、PvE战斗参与量，以及代表实验干预的二元变量pvp与留存结果r1。数据采集过程严格遵循隐私保护原则，确保不涉及任何个人身份信息。同时，数据集中天然存在由玩家自主选择PvP参与所引发的自选择偏差，这为后续的因果推断分析提供了典型的研究场景。

特点

该数据集最显著的特点在于其专为因果推断与观察性研究所做的精心设计。所有变量均以清晰的二元或连续数值形式呈现，便于直接应用于各类统计模型与机器学习算法。尤为特殊的是，数据集明确包含一个二元处理变量pvp及对应的二元结果变量r1，可直接支撑干预效应的识别与估计。自选择偏差的存在使得该数据集不仅是验证因果推断方法的理想测试平台，更可模拟真实游戏运营中常见的混杂因素干扰。尽管样本规模介于千至万级区间，但变量的精简与高度聚焦使得每个样本的信息密度极高，足以支持稳健的因果效应计算。

使用方法

该数据集的使用主要面向因果推断与观察性数据分析任务，尤其适用于检验PvP参与策略对玩家留存率的因果效应。研究人员可将其直接加载至pandas等数据分析框架中，利用逻辑回归、倾向性评分匹配、工具变量法等经典方法进行因果效应估计。亦可借助DML、CATE等前沿因果森林模型探索异质性处理效应。在应用过程中，需对自选择偏差予以特别关注，建议结合敏感性分析检验结果的稳健性。由于数据集的分类任务属性，其也可作为基准测试集，评估不同类型因果推断模型在真实游戏场景下的表现差异。

背景与挑战

背景概述

在电子游戏产业蓬勃发展的当下，玩家留存率与玩家对战（PvP）参与度已成为衡量游戏生命周期与商业成功的关键指标。game-telemetry-data数据集由游戏数据科学领域的匿名团队于近年创建，旨在通过因果推断方法分析PvP机制对玩家留存的影响。该数据集以CC-BY-4.0许可发布，包含约千条匿名的游戏遥测记录，涵盖了钱包连接状态、游戏会话次数、新手引导时间、PvE战斗次数等核心变量，并设置了PvP参与的实验组标签与留存结果变量。其研究核心在于克服观察性数据中的混杂因素，为游戏设计者提供基于因果效应的决策支持。该数据集的发布为游戏行业内的因果分析研究提供了标准化的基础资源，推动了数据驱动型游戏优化策略的发展。

当前挑战

该数据集面临的挑战首先体现于领域问题的复杂性：玩家留存与PvP参与之间存在复杂的双向因果与自我选择偏倚，即热衷PvP的玩家本身可能具有更高的留存倾向，使得传统相关性分析难以剥离PvP的真实因果效应。构建过程中，研究者需应对遥测数据中的内生性问题，例如玩家行为受不可观测的偏好与动机驱动，导致处理组与对照组的非随机分配。此外，数据规模有限（1K至10K量级）限制了高维混杂控制的统计效力，且变量间的潜在非线性关系与交互效应增加了模型误设的风险。注释信息明确指出数据存在自我选择偏倚，这要求分析者在利用该数据集时需谨慎运用倾向性得分匹配、工具变量或敏感度分析等稳健的因果推断技术。

常用场景

经典使用场景

该数据集专为游戏遥测数据分析而生，聚焦于玩家留存率与PvP参与度的因果推断。其核心应用场景包括通过倾向性得分匹配、工具变量回归等准实验方法，探究web3钱包连接、游戏时长、PvE战斗次数等协变量对玩家七日留存（r1）的因果效应。研究人员常以此数据验证处理组（pvp）与对照组在非随机分配下的因果结构，为游戏行为经济学提供量化分析基础。

解决学术问题

数据集解决了观察性研究中玩家自我选择偏差带来的因果识别难题，尤其是PvP参与动机与留存结果之间的内生性问题。通过提供包含二元处理变量、连续协变量和二元结果变量的结构化数据，它支撑了因果森林、双重稳健估计等前沿方法在游戏领域的实证检验。其意义在于推动游戏科学从相关性分析转向因果性理解，为玩家行为建模提供方法论范式。

衍生相关工作

该数据集衍生出多项因果推断与游戏分析的交叉研究，包括基于元学习器的条件平均处理效应（CATE）估计工作、结合图神经网络的玩家社交行为因果路径建模，以及利用反事实预测设计动态难度调整系统的经典案例。这些研究进一步验证了数据集的通用性，将其扩展至免费游戏商业模式下的付费转化因果分析、多关卡递进留存率解析等方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集