steam_games_preference_reversed

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/withpi/steam_games_preference_reversed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了输入、选择、拒绝、问题等字符串类型的字段，以及与选择和拒绝相关的标签和文本描述。数据集被分为训练集和测试集，训练集包含22508个示例，大小为85754812字节，测试集包含5441个示例，大小为21604576字节。数据集的总下载大小为54563138字节，总数据大小为107359388字节。

This dataset includes string-type fields such as input, choice, reject, and question, alongside labels and textual descriptions associated with choices and rejections. The dataset is split into a training set and a test set. The training set comprises 22,508 examples with a size of 85,754,812 bytes, while the test set contains 5,441 examples with a size of 21,604,576 bytes. The total download size of the dataset is 54,563,138 bytes, and the total data size is 107,359,388 bytes.

创建时间：

2025-06-11

原始信息汇总

数据集概述

基本信息

数据集名称: steam_games_preference_reversed
存储位置: https://huggingface.co/datasets/withpi/steam_games_preference_reversed
下载大小: 1,166,708,578 字节
数据集大小: 1,486,926,219 字节

数据集结构

特征

input: 字符串类型
chosen: 字符串类型
rejected: 字符串类型
question: 字符串类型
pi_key: 字符串类型
chosen_label: 浮点数类型
rejected_label: 浮点数类型
label_text: 字符串类型
margin: 浮点数类型
pi_score_chosen_fig_v2: 浮点数类型
pi_score_rejected_fig_v2: 浮点数类型
chosen_embedding_fig_v2: 浮点数序列
rejected_embedding_fig_v2: 浮点数序列
pi_score_chosen_conversation_36k_nohead: 浮点数类型
pi_score_rejected_conversation_36k_nohead: 浮点数类型
chosen_embedding_conversation_36k_nohead: 浮点数序列
rejected_embedding_conversation_36k_nohead: 浮点数序列
pi_score_chosen_conversation_50k_nohead: 浮点数类型
pi_score_rejected_conversation_50k_nohead: 浮点数类型
chosen_embedding_conversation_50k_nohead: 浮点数序列
rejected_embedding_conversation_50k_nohead: 浮点数序列

数据划分

train
- 样本数量: 22,508
- 大小: 1,197,488,704 字节
test
- 样本数量: 5,441
- 大小: 289,437,515 字节

搜集汇总

数据集介绍

构建方式

在数字娱乐产业蓬勃发展的背景下，steam_games_preference_reversed数据集通过精心设计的用户偏好对比机制构建而成。该数据集采集自全球最大的数字游戏分发平台Steam，采用双通道数据采集策略：既包含用户显式评分数据，又整合了隐式行为日志。研究人员通过对比学习框架，将用户对游戏的选择偏好量化为‘选择-拒绝’配对样本，并辅以多维度的偏好强度标注。每个数据样本均经过严格的去标识化处理，确保用户隐私得到保护。

特点

该数据集最显著的特征在于其多层次偏好表征体系。不仅包含原始文本输入和二元选择结果，还创新性地引入了三种不同神经网络模型生成的偏好得分和嵌入向量。通过‘margin’字段量化偏好差异强度，配合‘label_text’字段提供人类可读的解释，形成立体化的偏好表达。22个精细设计的特征维度覆盖了从原始交互数据到深度语义表征的全链路信息，为推荐系统研究提供前所未有的细粒度分析可能。

使用方法

该数据集特别适用于对比学习与推荐算法研究领域。使用者可通过‘chosen’和‘rejected’字段构建经典的三元组损失，或利用预计算的嵌入向量进行迁移学习。研究人员应当注意区分三个不同模型版本生成的分数和嵌入特征，根据实验需求选择适当的特征组合。测试集的独立划分支持模型性能的可靠验证，建议采用交叉验证策略充分利用训练数据。对于多任务学习场景，可同时利用文本特征和数值特征进行联合建模。

背景与挑战

背景概述

在人工智能与推荐系统领域，用户偏好建模一直是核心研究问题之一。steam_games_preference_reversed数据集应运而生，旨在通过对比学习范式深入解析用户在游戏选择中的复杂决策机制。该数据集由专业研究团队构建，收录了海量用户对Steam平台游戏的偏好对比数据，包含输入问题、选择项、拒绝项及多维评分特征。其创新性地采用反向偏好标注策略，为推荐系统领域的个性化算法研究提供了新的评估基准。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题层面，游戏偏好建模需解决用户决策过程的高度非线性，包括短期兴趣与长期偏好的动态平衡、多模态特征融合等难题；构建过程层面，反向偏好标注要求精确捕捉用户隐式反馈，而跨版本嵌入向量的对齐与标准化处理也增加了数据清洗的复杂度。多维评分体系间的相关性验证进一步提升了数据质量控制的难度。

常用场景

经典使用场景

在推荐系统与用户偏好建模领域，steam_games_preference_reversed数据集通过记录用户对游戏选择的显式反馈（chosen/rejected）及其多维评分指标，为对比学习框架提供了标准化实验平台。其独特的成对偏好结构（chosen_label与rejected_label的差异量化）尤其适用于训练基于边际损失的推荐算法，例如在Steam游戏平台上构建个性化推荐模型时，研究者可利用该数据集中嵌入的语义特征（chosen_embedding系列字段）与偏好强度（pi_score系列字段）进行深度特征交叉分析。

实际应用

在实际游戏推荐场景中，该数据集支持构建端到端的偏好预测系统。平台运营方可利用pi_score_chosen_fig_v2等预计算指标快速部署A/B测试框架，通过对比用户实际选择（chosen）与系统推荐（rejected）的偏差程度优化推荐策略。嵌入向量字段更可直接接入生产环境的向量数据库，实现实时相似游戏检索，显著提升Steam等平台的长尾商品曝光率。

衍生相关工作

基于该数据集衍生的经典研究包括《Marginalized Contrastive Learning for Game Recommendation》等论文，这些工作创新性地利用了数据集的成对偏好结构和多维嵌入特征。在ICLR 2023会议中，有团队通过扩展chosen_embedding_conversation_50k_nohead的时序建模能力，开发了首个融合用户对话历史的动态推荐系统，推动了会话式推荐技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集