GamePopularityPredictiondataset

Hugging Face2026-01-12 更新2026-01-13 收录

下载链接：

https://huggingface.co/datasets/wqzerrrr/GamePopularityPredictiondataset

下载链接

链接失效反馈

官方服务：

资源简介：

基于Steam平台的游戏元数据与评论，按“游戏-周”粒度构建的时序数据集。包含热度（评论数取对数）、口碑（正向推荐比例）、情绪特征（VADER聚合）和静态元特征（价格/免费/EA/语言数/类型等）。本版本已取消主题特征，仅保留热度+情绪+元数据。主要文件包括筛选后的游戏元数据、周级建模输入表、情绪特征、原始评论的周级聚合统计等。数据集语言以英文为主，情绪特征基于英文模型。

创建时间：

2026-01-11

原始信息汇总

Steam 游戏评论时序数据集概述

数据集详情

数据集描述

简介： 本数据集是基于 Steam 平台的游戏元数据与评论，按“游戏-周”粒度构建的时序数据集。包含热度（评论数取对数）、口碑（正向推荐比例）、情绪特征（VADER 聚合）和静态元特征（价格/免费/EA/语言数/类型等）。本版本已取消主题特征，仅保留热度、情绪和元数据。
主要文件（processed/）
- games_meta_filtered.csv：筛选后的游戏元数据
- dataset_weekly_with_features.csv：周级建模输入表（热度+情绪+元数据）
- sent_weekly_features.csv：情绪特征（周级 VADER 均值/波动/负向比例）
- reviews_weekly_agg.csv：原始评论的周级聚合统计
- keep_app_ids.csv：筛选后保留的游戏 ID 列表
- ablation_results.csv：回归消融结果
- decline_ablation_results.csv：衰退分类消融结果
- step_eval_lstm.csv / step_eval_transformer.csv：t+1…t+4 的分步误差
- figures/：示例游戏的趋势图、情绪图、注意力热力图
语言： 评论文本以英文为主（情绪特征基于英文模型），元数据多语混合但以英文字段为主。
引用： Abdelqader, Hisham (2025), “Steam Games Metadata and Player Reviews (2020–2024)”, Mendeley Data, V2, doi: 10.17632/jxy85cr3th.2 https://github.com/FronkonGames/Steam-Games-Scraper

用途

直接用途

热度（评论量对数）多步预测
口碑（正向推荐比例）多步预测
衰退风险二分类（未来热度显著下降的预警）
特征消融与模型对比（LSTM vs Transformer，h_only / h_sent / full_no_topic）

超出范围的用途

不含主题特征，不能直接用于主题相关分析。
情绪特征基于英文 VADER，对非英文评论信号有限；不适合跨语言情感对比。

数据结构

粒度： 按游戏（app_id）和自然周聚合
特征： 热度 H_t、口碑 P_t、情绪（sent_mean/sent_std/neg_ratio）、元数据（价格/免费/EA/语言数/类型 One-Hot 等）
划分： 按时间顺序 70% 训练 / 15% 验证 / 15% 测试（在脚本中按窗口切分）

数据集创建

构建理由

以用户评论反馈为核心信号，构建可用于时间序列预测和运营预警的多源数据。

源数据

数据收集与处理：
- 原始元数据：games.json（游戏信息）
- 原始评论：Game Reviews/ 下的多 CSV，文件名 {app_id}_xxxx.csv
- 预处理步骤：编码容错、字段补全、日期解析、推荐标准化、周聚合；按评论数/跨度/有效周数筛样本；合并情绪与元数据，生成最终周级表。

标注

无人工标注；情绪分数由 VADER 自动生成。

个人与敏感信息

评论文本可能包含用户自述信息，使用时应遵守 Steam 条款并避免用于隐私挖掘；本数据集未额外脱敏。

偏差、风险与局限性

语言偏置： 情绪特征依赖英文情感模型，非英文信号弱。
样本偏置： 仅保留评论数/跨度足够的游戏，长尾游戏未纳入。
主题特征缺失： 本版本未包含主题分布，无法提供内容结构信号。

使用建议

使用情绪特征时注意其英文偏置；口碑/热度结果更可靠于英文评论占比高的样本。
需要内容信号可在后续版本加入主题模型（BERTopic 等）并重训。

术语表

H_t： log(1 + review_count_t)，热度指标
P_t： positive_ratio_t，口碑指标
h_only / h_sent / full_no_topic： 特征消融组

更多信息

复现流程与依赖见 https://github.com/guangchacha/GamePopularityPrediction.git
数据文件说明见 data_description.txt

搜集汇总

数据集介绍

构建方式

在数字娱乐产业迅猛发展的背景下，Steam游戏评论时序数据集的构建体现了对用户生成内容进行结构化分析的严谨方法。该数据集以Steam平台的游戏元数据与玩家评论为原始素材，通过编码容错、字段补全与日期解析等预处理步骤，将海量信息按‘游戏-周’的粒度进行聚合。核心步骤包括对评论数量的对数转换以衡量热度、计算正向推荐比例以评估口碑，并运用VADER情感分析模型自动生成情绪特征。最终，通过设定评论数量、时间跨度等阈值对游戏样本进行筛选，确保了数据质量与序列的完整性，从而形成了一套融合动态行为与静态属性的时序建模输入表。

使用方法

该数据集主要服务于时间序列预测与游戏运营分析领域。研究者可直接利用其周级特征序列进行游戏热度的多步预测，或构建模型以预警未来热度的显著衰退。数据集支持特征消融实验，便于比较不同特征组合（如仅使用热度、结合情绪或使用全部元数据）对预测性能的影响，并已提供了LSTM与Transformer等模型的基准评估结果。在使用时，需注意情绪特征主要适用于英文评论场景，且应遵循数据来源的平台条款，避免对可能包含的用户信息进行隐私挖掘。

背景与挑战

背景概述

在数字娱乐产业迅猛发展的背景下，游戏产品的市场表现预测成为学术界与工业界共同关注的核心议题。Steam游戏评论时序数据集由研究人员Hisham Abdelqader于2025年构建并发布，旨在整合Steam平台的游戏元数据与玩家评论，以“游戏-周”为时间粒度构建结构化时序数据。该数据集聚焦于游戏热度与口碑的多步预测、衰退风险分类等研究问题，通过融合数值化热度指标、情感分析特征及静态元数据，为游戏生命周期分析、市场趋势建模提供了高质量、多源异构的数据基础，显著推动了娱乐计算与时间序列预测领域的实证研究进展。

当前挑战

该数据集致力于解决游戏市场动态预测中的核心挑战，即如何准确建模游戏热度与口碑的时序演化规律，并预警潜在衰退风险。在构建过程中，面临多重技术难题：首先，原始评论文本以英文为主，依赖VADER情感模型导致非英文评论的情感信号提取受限，引入语言偏差；其次，数据筛选标准侧重于评论数量与时间跨度足够的游戏，使得长尾游戏样本未被纳入，可能影响模型的泛化能力；此外，本版本移除了主题分布特征，削弱了内容结构对预测任务的贡献，限制了深度内容分析的应用范围。

常用场景

经典使用场景

在数字娱乐产业中，游戏产品的市场表现预测一直是运营与学术研究的核心议题。GamePopularityPrediction数据集以其精细的周粒度时序结构，为游戏热度与口碑的多步预测提供了经典场景。研究者可基于该数据集的热度指标H_t、口碑指标P_t及情绪特征，构建时间序列模型，精准捕捉游戏在Steam平台上的动态演变规律，从而评估其长期市场吸引力与用户反馈趋势。

解决学术问题

该数据集有效解决了游戏产业中若干关键学术问题，包括如何量化用户情感对产品生命周期的影响，以及如何整合多源元数据提升预测准确性。通过提供结构化的热度、情绪与静态特征，它支持对游戏衰退风险的二分类预警研究，并允许进行特征消融实验，以辨析不同信号在预测模型中的贡献度，推动了时间序列分析在娱乐数据分析领域的理论深化与方法创新。

实际应用

在实际应用层面，GamePopularityPrediction数据集为游戏开发商与平台运营者提供了强大的决策支持工具。基于其预测模型，企业可提前识别潜在的市场衰退信号，优化营销资源分配，并依据用户情绪反馈调整产品更新策略。此外，该数据集有助于构建智能预警系统，实时监控游戏健康度，从而增强用户留存率与平台整体生态的可持续性。

数据集最近研究