items_llm_raw_lite

Hugging Face2026-04-19 更新2026-04-20 收录

下载链接：

https://huggingface.co/datasets/KumudithaSilva/items_llm_raw_lite

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含22,000条记录（训练集17,600条，验证集和测试集各2,200条），主要存储与电子游戏相关的结构化信息。数据特征包括：游戏ID、名称、峰值在线人数(peakCCU)、年龄限制(required_age)、价格、DLC数量(dlcCount)、Windows/Mac/Linux平台支持情况、正面/负面评价数量(positive/negative)、成就数、推荐数、发行日期（年/月/日）、简短描述、预估拥有者范围(min/max_estimatedOwners)、支持语言数量、开发商/发行商数量(num_developers/num_publishers)以及游戏类别/流派数量(num_categories/num_genres)。数据集适用于游戏市场分析、玩家行为预测、跨平台兼容性研究等任务。

创建时间：

2026-04-18

原始信息汇总

数据集概述

基本信息

数据集名称: items_llm_raw_lite
托管地址: https://huggingface.co/datasets/KumudithaSilva/items_llm_raw_lite
总大小: 5049377 字节
下载大小: 1726115 字节

数据构成

总样本数: 22000
训练集 (train): 17600 个样本，4039516 字节
验证集 (validation): 2200 个样本，506075 字节
测试集 (test): 2200 个样本，503786 字节

特征字段

id: int64，唯一标识符
name: string，名称
peakCCU: int64，峰值同时在线用户数
required_age: int64，所需年龄
price: float64，价格
dlcCount: int64，可下载内容数量
supportWindows: bool，支持Windows系统
supportMac: bool，支持Mac系统
supportLinux: bool，支持Linux系统
positive: int64，正面评价数
negative: int64，负面评价数
achievements: int64，成就数量
recommendations: int64，推荐数量
release_year: int64，发布年份
release_month: int64，发布月份
release_day: int64，发布日
small_description: string，简短描述
min_estimatedOwners: int64，预估拥有者数量下限
max_estimatedOwners: int64，预估拥有者数量上限
supported_languages: int64，支持的语言数量
num_developers: int64，开发商数量
num_publishers: int64，发行商数量
num_categories: int64，类别数量
num_genres: int64，流派数量

数据文件

训练集文件路径: data/train-*
验证集文件路径: data/validation-*
测试集文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在数字娱乐产业蓬勃发展的背景下，items_llm_raw_lite数据集通过系统化采集与整合，构建了一个专注于电子游戏产品的结构化信息库。其数据来源于公开的游戏分发平台，涵盖了游戏的基本属性、市场表现及用户反馈等多维度信息。构建过程中，采用了自动化数据抓取与清洗流程，确保了数据的时效性与一致性，并按照标准的数据分割策略，将原始数据划分为训练集、验证集和测试集，为后续的机器学习任务提供了可靠的基础。

特点

该数据集以其丰富的特征维度而著称，不仅包含游戏名称、价格、发行日期等基础信息，还整合了峰值同时在线人数、用户评价的正负面数量、成就系统、推荐数等反映市场热度与用户参与度的关键指标。此外，数据集还提供了多平台支持情况、语言支持数量、开发者与发行商数量等细节，以及游戏类别与类型的统计信息，这些特征共同构成了一个全面刻画游戏产品生态的多元视角，为深入分析游戏市场趋势与用户行为模式奠定了数据基础。

使用方法

在游戏产业分析与智能推荐系统研究中，items_llm_raw_lite数据集可作为核心数据源，支持多种下游任务。研究人员可直接加载数据集的训练、验证与测试分割，利用其结构化特征进行游戏销量预测、用户偏好建模或市场分类分析。数据集中的数值型与类别型特征便于特征工程处理，而文本描述字段则可用于自然语言处理任务的探索。通过结合机器学习或深度学习模型，该数据集能够助力于游戏产品的智能评估与个性化推荐系统的开发。

背景与挑战

背景概述

在数字娱乐产业蓬勃发展的背景下，游戏数据的系统化收集与分析成为推动个性化推荐、市场预测及用户行为研究的关键。items_llm_raw_lite数据集应运而生，它由相关研究团队于近年构建，专注于整合Steam平台上的游戏项目信息。该数据集涵盖了游戏名称、价格、用户评价、发行日期、支持平台及语言等多维度特征，旨在为大型语言模型提供结构化训练素材，以解决游戏领域的自然语言处理任务，如内容生成、情感分析或趋势洞察，对游戏信息学与推荐系统的发展具有显著推动作用。

当前挑战

该数据集致力于应对游戏信息领域的复杂挑战，包括如何从海量异构数据中提取有效特征以支持精准的推荐与分类，以及如何处理用户评价中的主观性与噪声以提升情感分析的可靠性。在构建过程中，研究人员面临数据采集的完整性难题，例如Steam API的访问限制与数据更新滞后，同时需克服多语言支持、平台兼容性等字段的标准化问题，确保数据的一致性与可扩展性，为后续模型训练奠定坚实基础。

常用场景

经典使用场景

在数字娱乐与游戏产业分析领域，items_llm_raw_lite数据集以其详尽的游戏产品特征信息，为机器学习模型训练提供了坚实基础。该数据集经典应用于游戏推荐系统的构建，通过整合价格、用户评价、支持平台等多维度属性，助力算法精准预测用户偏好，优化个性化推荐效果。

解决学术问题

该数据集有效解决了游戏市场分析中数据稀疏与特征异构的学术挑战。通过提供结构化的大规模游戏元数据，支持研究者深入探讨用户行为模式、游戏成功因素预测以及跨平台兼容性影响等关键问题，推动了计算社会科学与娱乐技术领域的实证研究进展。

衍生相关工作

基于该数据集衍生的经典工作包括游戏生命周期预测模型与跨文化接受度分析框架。研究者利用其丰富的时序发布数据与多语言支持特征，开发了能够精准模拟游戏流行度演变的算法，并为全球化游戏本地化策略提供了数据驱动的理论支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集