items_raw_full

Hugging Face2026-04-18 更新2026-04-19 收录

下载链接：

https://huggingface.co/datasets/KumudithaSilva/items_raw_full

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含58,729个训练样本、7,341个验证样本和7,580个测试样本，总大小约27.45MB。数据集包含23个特征字段，主要涵盖以下信息：产品名称（name）、峰值并发用户数（peakCCU）、年龄限制（required_age）、价格（price）、DLC数量（dlcCount）、Windows/Mac/Linux平台支持情况（supportWindows/supportMac/supportLinux）、正面/负面评价数（positive/negative）、成就数量（achievements）、推荐数（recommendations）、发布日期（release_year/month/day）、简短描述（small_description）、预估拥有者数量范围（min/max_estimatedOwners）、支持语言数量（supported_languages）、开发商/发行商数量（num_developers/num_publishers）、类别/流派数量（num_categories/num_genres）。从特征字段推断，该数据集可能记录数字游戏或软件产品的详细属性与表现数据，适用于推荐系统、市场分析或用户行为研究等任务。

创建时间：

2026-04-16

原始信息汇总

数据集概述

基本信息

数据集名称: items_raw_full
托管平台: Hugging Face
创建者: KumudithaSilva
数据集地址: https://huggingface.co/datasets/KumudithaSilva/items_raw_full

数据集内容与结构

数据条目总数: 73650
特征数量: 24
数据格式: 结构化数据，包含多个数值和文本字段

数据特征

id: 唯一标识符（数据类型：int64）
name: 名称（数据类型：string）
peakCCU: 峰值同时在线用户数（数据类型：int64）
required_age: 要求年龄（数据类型：int64）
price: 价格（数据类型：float64）
dlcCount: 可下载内容数量（数据类型：int64）
supportWindows: 支持Windows系统（数据类型：bool）
supportMac: 支持Mac系统（数据类型：bool）
supportLinux: 支持Linux系统（数据类型：bool）
positive: 正面评价数量（数据类型：int64）
negative: 负面评价数量（数据类型：int64）
achievements: 成就数量（数据类型：int64）
recommendations: 推荐数量（数据类型：int64）
release_year: 发布年份（数据类型：int64）
release_month: 发布月份（数据类型：int64）
release_day: 发布日（数据类型：int64）
small_description: 简短描述（数据类型：string）
min_estimatedOwners: 最小估计拥有者数量（数据类型：int64）
max_estimatedOwners: 最大估计拥有者数量（数据类型：int64）
supported_languages: 支持语言数量（数据类型：int64）
num_developers: 开发者数量（数据类型：int64）
num_publishers: 发行商数量（数据类型：int64）
num_categories: 类别数量（数据类型：int64）
num_genres: 流派数量（数据类型：int64）

数据划分

训练集（train）:
- 样本数量：58729
- 数据大小：22362008字节
验证集（validation）:
- 样本数量：7341
- 数据大小：2796735字节
测试集（test）:
- 样本数量：7580
- 数据大小：2882531字节

数据集技术详情

总下载大小: 13560369字节
总数据集大小: 28041274字节
默认配置名称: default
数据文件路径模式:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

搜集汇总

数据集介绍

构建方式

在数字娱乐产业蓬勃发展的背景下，items_raw_full数据集通过系统化采集与整合公开的游戏平台信息构建而成。该过程涉及从多个可靠来源提取结构化数据，涵盖了游戏标识符、名称、发行日期、价格、用户评价及技术规格等关键字段，并经过清洗与验证以确保数据的一致性与准确性。数据被划分为训练集、验证集和测试集，以支持机器学习模型的开发与评估，体现了严谨的数据工程实践。

使用方法

在游戏研究与商业智能领域，items_raw_full数据集可用于训练预测模型，例如估计游戏销量或用户评分，也可用于聚类分析以识别市场细分。研究人员可加载标准化的数据分割，直接应用于回归、分类或推荐系统算法中。通过利用其结构化特征，能够探索游戏成功因素、平台兼容性影响或跨文化接受度，为学术与产业决策提供数据驱动的见解。

背景与挑战

背景概述

在数字游戏产业蓬勃发展的背景下，对游戏产品进行系统性量化分析的需求日益增长。items_raw_full数据集应运而生，它整合了Steam平台上的游戏项目信息，涵盖了从基础属性如价格、发行日期到社区反馈如玩家评价、成就数量等多维度特征。该数据集由相关研究机构或数据科学家构建，旨在为游戏市场分析、推荐系统开发及玩家行为研究提供结构化数据支持。通过包含数万条游戏记录，它不仅反映了游戏产业的生态多样性，也为跨领域的实证研究奠定了数据基础，推动了游戏信息学这一交叉学科的发展。

当前挑战

该数据集致力于解决游戏市场分析与预测中的复杂问题，其核心挑战在于如何从异构的游戏属性中提取有效特征以建模玩家偏好和市场趋势。具体而言，数据中的多模态信息如文本描述、数值统计和分类标签需要融合处理，而稀疏或缺失的字段如所有者估计范围增加了分析难度。在构建过程中，挑战主要源于数据采集的规模与一致性：从动态变化的Steam平台实时获取并清洗数万条记录需克服API限制与格式异构性，同时确保跨平台支持、语言数量等布尔或计数特征的准确性，这要求精细的数据工程流程以维持数据集的可信度与时效性。

常用场景

经典使用场景

在数字游戏产业分析领域，items_raw_full数据集以其详尽的游戏属性记录，为研究者提供了经典的使用场景。该数据集常用于构建游戏销量预测模型，通过整合峰值同时在线用户数、价格、用户评价及发布年份等多维特征，帮助分析市场趋势与玩家偏好，进而优化游戏开发与营销策略。

解决学术问题

该数据集有效解决了游戏经济学中的关键学术问题，如探究价格弹性、用户评分与销量之间的复杂关联。其丰富的结构化数据支持因果推断与回归分析，深化了对数字商品市场动态的理解，并为产业决策提供了实证基础，推动了娱乐计算领域的理论进展。

实际应用

在实际应用中，items_raw_full数据集被游戏发行商与平台运营商广泛采纳，用于个性化推荐系统的训练。通过分析游戏特征与用户行为数据，企业能够精准定位目标受众，优化库存管理与促销活动，从而提升用户参与度与商业收益。

数据集最近研究