cookie_cats.csv

github2024-11-15 更新2024-12-06 收录

下载链接：

https://github.com/Vaibhav99mishra/AB_TESTING_COOKIE-CATS-

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含以下列：用户ID、游戏版本（gate_30或gate_40）、玩家玩的游戏轮数、玩家在安装游戏后一天是否返回、玩家在安装游戏后七天是否返回。

This dataset includes the following columns: User ID, game version (either gate_30 or gate_40), number of game rounds played by the player, whether the player returned one day after installing the game, and whether the player returned seven days after installing the game.

创建时间：

2024-11-15

原始信息汇总

Cookie Cats A/B Testing 数据集概述

数据集描述

数据集名称

cookie_cats.csv

数据集内容

userid: 每个玩家的唯一标识符
version: 玩家交互的游戏版本（gate_30 或 gate_40）
sum_gamerounds: 玩家玩的游戏回合数
retention_1: 玩家是否在安装游戏后的第二天返回
retention_7: 玩家是否在安装游戏后的第七天返回

数据集目的

分析和比较 "Cookie Cats" 游戏中两个不同版本（gate30 和 gate40）的玩家参与度，以确定“门”的位置是否影响玩家留存和参与度。

数据分析步骤

1. 数据加载和概览

加载数据集并创建分析副本。
检查数据的前几行和后几行以了解其结构。
显示数据类型、形状和缺失值信息。

2. 描述性统计

计算每个版本组中的唯一用户数。
比较两个组在 sum_gamerounds 方面的均值、最大值和计数。
可视化每个版本的数据分布以了解整体参与度。

3. 假设制定

零假设 (H0): gate_30 和 gate_40 的参与度水平没有统计学上的显著差异。
备择假设 (H1): gate_30 和 gate_40 的参与度水平有统计学上的显著差异。

4. 假设检验

正态性检验: 使用 Shapiro-Wilk 检验确定每个组的数据是否符合正态分布。
方差齐性检验: 使用 Levene 检验评估两个组之间的方差是否相似。

5. A/B 测试

基于正态性检验结果，进行 Mann-Whitney U 检验，因为数据不符合正态分布。
计算并解释 p 值以确定两个版本之间是否存在统计学上的显著差异。

结果

正态性检验: p 值表明数据不符合正态分布，因此进行非参数检验。
方差齐性: Levene 检验的 p 值表明两个组之间的方差相似。
A/B 测试结果: Mann-Whitney U 检验的 p 值大于 0.05，意味着我们不能拒绝零假设。

结论

分析显示 gate_30 和 gate_40 之间的玩家参与度没有统计学上的显著差异，置信度为 95%。因此，公司可以选择任一版本而不会显著影响整体参与度，因为观察到的差异很可能是随机机会导致的。

搜集汇总

数据集介绍

构建方式

在构建cookie_cats.csv数据集时，研究团队针对游戏'Cookie Cats'的两个不同版本——gate30和gate40进行了A/B测试。数据集的生成基于对玩家行为的详细记录，包括每个玩家的唯一标识符、所交互的游戏版本、玩家参与的游戏轮数以及在安装游戏后1天和7天的留存情况。通过这种方式，数据集旨在提供一个全面的视角，以评估不同游戏版本对玩家参与度和留存率的影响。

使用方法

使用cookie_cats.csv数据集进行分析时，首先需加载数据并进行初步的概览，以了解数据的结构和内容。随后，可以通过计算描述性统计量来比较不同版本的玩家行为，如游戏轮数的均值和最大值。为了验证假设，可以进行假设检验，包括正态性检验和方差齐性检验，并根据结果选择合适的统计方法，如Mann-Whitney U检验。最终，通过分析结果，可以得出关于游戏版本对玩家参与度影响的结论。

背景与挑战

背景概述

在移动游戏领域，玩家留存和参与度是衡量游戏成功与否的关键指标。为了优化游戏体验，开发者经常进行A/B测试以评估不同设计元素的效果。Cookie Cats数据集正是基于这一背景，由某游戏公司创建，旨在通过对比两个不同版本的游戏（gate30和gate40）来研究游戏关卡设置对玩家参与度的影响。该数据集的核心研究问题在于确定关卡门的位置是否会影响玩家的参与度，具体通过分析玩家的游戏回合数（sum_gamerounds）来衡量。这一研究不仅有助于优化游戏设计，还为移动游戏行业的A/B测试提供了宝贵的实证数据。

当前挑战

Cookie Cats数据集在构建和分析过程中面临多项挑战。首先，数据集需要确保样本的随机性和代表性，以避免选择偏差。其次，由于玩家行为数据的非正态分布特性，传统的统计方法如t检验不再适用，需采用非参数检验如Mann-Whitney U检验。此外，数据集还需处理潜在的缺失值和异常值，以确保分析结果的准确性。最后，如何解释和应用A/B测试的结果，以指导实际游戏设计决策，也是该数据集面临的重要挑战。

常用场景

经典使用场景

在游戏开发领域，cookie_cats.csv数据集的经典使用场景主要集中在A/B测试中，用以评估不同游戏版本对玩家参与度的影响。具体而言，该数据集通过对比两种游戏版本（gate_30和gate_40）的玩家留存率和游戏回合数，帮助开发者确定哪种版本更能有效提升玩家参与度。这种测试方法不仅为游戏优化提供了科学依据，还为后续版本迭代提供了数据支持。

解决学术问题

cookie_cats.csv数据集在学术研究中主要解决了游戏设计中的关键问题，即如何通过微小的设计变动显著提升玩家体验和留存率。通过A/B测试，研究人员能够量化不同设计选择对玩家行为的影响，从而为游戏设计理论提供了实证支持。这一研究不仅丰富了游戏设计领域的理论框架，还为其他互动娱乐产品的优化提供了参考。

实际应用

在实际应用中，cookie_cats.csv数据集被广泛用于游戏公司的产品开发和优化流程。通过分析玩家在不同游戏版本中的行为数据，公司能够迅速识别出最有效的游戏设计策略，从而提高产品的市场竞争力。此外，该数据集还被用于培训数据分析师，帮助他们掌握A/B测试和用户行为分析的实际操作技能。

数据集最近研究