five

ca-aird/epic-games-plr

收藏
Hugging Face2024-07-04 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/ca-aird/epic-games-plr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集涉及一个双部分评论网络,包括游戏评论公司和在Epic Games Store上发布的游戏。任务是根据评论者所属公司和游戏的身份,以及评论时间和游戏特征,预测评论分数。数据集包含节点和边的特征,以及时间戳信息。预处理步骤详细说明了如何将原始数据转换为图结构,并描述了每个字段的用途。

This dataset involves a bi-partite review network between game critic companies and games released on Epic Games Store. The task is predicting the review score given the identity of critic owner company and game, in addition to the time of review and game features. The dataset contains node and edge features, as well as timestamp information. The preprocessing steps detail how the raw data is transformed into a graph structure and describe the usage of each field.
提供机构:
ca-aird
原始信息汇总

Epic Games for Proximate Link Regression

概述

  1. 名称: epic-games-plr
  2. 描述: 该数据集涉及游戏评论公司与Epic Games Store上发布的游戏之间的二部评论网络。
  3. 任务: 任务是根据评论公司身份、游戏身份、评论时间和游戏特征来预测评论分数。
  4. 创建日期: 2024年7月1日
  5. 最后更新: 2024年7月1日
  6. 原始来源: https://zenodo.org/records/7606569
  7. 联系信息: email
  8. 许可证: CC BY 4.0

统计信息

类别 数据
节点数量 1,156
边数量 17,584
节点特征数量 573
边特征数量 512
时间戳数量 3267

下载

  1. 格式: 压缩的data.pt文件,包含以下Python字典: python data = { "node_attr": torch.FloatTensor, "edge_index": torch.LongTensor, "edge_time": torch.FloatTensor, "edge_attr": torch.FloatTensor, "edge_label": torch.FloatTensor, "num_nodes": int }

  2. 大小: 2.57 MB

  3. 位置: https://huggingface.co/datasets/ca-aird/epicgames/blob/main/data.zip

引用

BiBTeX:

@article{, title={Benchmarking Edge Regression on Temporal Networks}, author={Muberra Ozmen and Florence Regol and Thomas Markovich}, journal={X}, volume={X}, number={X}, pages={X}, year={X}, publisher={X} }

预处理

原始数据集包含Epic Games Store平台上发布的游戏及其评论信息。数据集包括两种记录类型:游戏评论

评论记录用于定义图结构,评论的源和目标(即评论公司和游戏身份)形成顶点集,每个评论表示它们之间的时间边。评论记录的原始字段及其描述和用途如下:

字段 描述 用途
company 评论游戏的公司名称:为每个样本生成一个与game_id中任何值不同的识别号。 用作源节点
author 评论游戏的作者:由于缺失值未使用。 未使用
game_id 游戏识别号。 用作目标节点
date 评论日期:转换为时间戳。 用作边时间
rating 游戏评分(满分100):归一化为[0, 1]。 用作边目标
comment 作者对游戏的评论:由于在date之后观察到未使用。 未使用
top_critic 验证是否为顶级评论(有判决的作者):由于在date之后观察到未使用。 未使用

每个顶点(即评论公司或游戏)都关联一个特征向量。游戏顶点的特征通过游戏描述、类型和价格等文本数据计算得出:

字段 描述 用途
id 游戏识别号。
name 游戏名称。
game_slug 游戏简称。
description 游戏描述:与namegame_slug连接,并矢量化为TF-IDF特征,词汇表大小为512,最大词频为0.8。 用作节点特征
price 游戏价格:归一化为[0, 1]。 用作节点特征
platform 游戏可用的平台:转换为0/1指示符的分类数据。 用作节点特征
genres 游戏类型:转换为0/1指示符的分类数据。 用作节点特征
release_date 游戏发布日期:转换为时间戳。 用作节点特征
developer 开发游戏的公司。 未使用
publisher 发布游戏的公司。 未使用
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作