PALR_inference1_yelpV2

Hugging Face2025-04-18 更新2025-04-19 收录

下载链接：

https://huggingface.co/datasets/namejun12000/PALR_inference1_yelpV2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含指令、输入和输出字段的数据集，用于推荐系统。输入包括候选者、用户交互、偏好和用户ID，输出为推荐的序列。数据集分为两个训练集部分，每个部分包含10653个示例。

创建时间：

2025-04-18

原始信息汇总

数据集概述

基本信息

数据集名称: PALR_inference1_yelpV2
下载大小: 8,600,891 字节
数据集大小: 37,047,165 字节

数据特征

instruction: 字符串类型
input: 结构体类型，包含以下字段：
- candidates: 字符串序列
- interaction: 字符串序列
- preference: 字符串类型
- user_id: 字符串类型
output: 结构体类型，包含以下字段：
- recommended: 字符串序列

数据划分

train_50_first:
- 样本数量: 10,653
- 字节大小: 18,513,180
train_50_second:
- 样本数量: 10,653
- 字节大小: 18,533,985

配置文件

默认配置:
- 数据文件路径:
  - train_50_first: data/train_50_first-*
  - train_50_second: data/train_50_second-*

搜集汇总

数据集介绍

构建方式

在推荐系统研究领域，PALR_inference1_yelpV2数据集的构建采用了严谨的交互式数据采集方法。该数据集基于Yelp平台真实用户行为日志，通过结构化记录用户ID、候选项目列表、历史交互序列及显式偏好标签等核心要素，构建了包含10,653条训练样本的双分片数据集。数据采集过程特别注重时序关系的保留，将用户连续交互行为分割为两个等量时段，形成train_50_first和train_50_second两个互补子集，为研究推荐系统的时序建模能力提供了理想实验环境。

特点

该数据集最显著的特征在于其多维度的交互信息编码体系。每条数据记录不仅包含传统的用户-项目交互序列，还创新性地整合了候选项目集合和显式偏好标签，为研究隐式反馈与显式反馈的协同机制创造了条件。数据结构采用嵌套式设计，指令文本、结构化输入和推荐输出形成三层级架构，既保留了推荐任务的原始语境，又通过标准化的字段命名确保了数据易用性。数据规模控制在中等体量，既满足深度学习模型的训练需求，又便于进行快速实验迭代。

使用方法

使用该数据集时，建议优先关注其特有的时序分割特性。两个训练子集可分别用于模型训练和验证，模拟真实场景中的增量学习过程。研究人员应充分利用数据结构中的多模态字段，将指令文本、交互序列与候选项目信息进行联合建模。典型工作流程包括：解析嵌套JSON结构提取交互特征，构建基于用户历史行为的推荐模型，最后通过output字段中的recommended列表评估推荐效果。数据集兼容主流深度学习框架，可直接加载为PyTorch或TensorFlow的Dataset对象进行端到端训练。

背景与挑战

背景概述

PALR_inference1_yelpV2数据集聚焦于个性化推荐系统领域，旨在通过用户历史交互数据和偏好分析，提升推荐算法的精准度。该数据集由Yelp平台提供支持，收录了丰富的用户行为记录，包括候选项目、交互序列及显式偏好标注。其核心研究问题在于如何从多源异构数据中挖掘用户潜在兴趣模式，为推荐系统领域提供了重要的基准测试资源。数据集的构建体现了当前推荐系统研究从静态特征建模向动态交互学习的重要范式转变。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需要解决短期偏好与长期兴趣的动态平衡问题，以及冷启动用户在稀疏交互数据下的推荐准确性难题。数据构建过程中，多模态用户行为数据的对齐与清洗消耗大量计算资源，交互序列的时序依赖性建模要求复杂的特征工程。候选项目与用户偏好的高维稀疏表征进一步增加了模型训练的复杂度，这对推荐算法的鲁棒性和可解释性提出了更高要求。

常用场景

经典使用场景

在推荐系统领域，PALR_inference1_yelpV2数据集为研究个性化推荐算法提供了重要支持。该数据集通过包含用户交互历史、候选推荐项及用户偏好等多维度信息，成为测试和验证推荐模型性能的基准数据集。研究人员可基于此数据集探索用户行为模式与推荐结果之间的关联，进而优化推荐策略。

解决学术问题

PALR_inference1_yelpV2数据集有效解决了推荐系统中用户偏好动态建模的难题。通过整合用户历史交互数据和明确偏好标签，该数据集为研究隐式反馈建模、冷启动问题以及长尾推荐等关键学术问题提供了实验基础。其结构化设计显著提升了推荐算法在真实场景中的可解释性和鲁棒性。

衍生相关工作

围绕PALR_inference1_yelpV2数据集已产生系列创新研究，包括基于强化学习的动态推荐框架、多任务偏好学习模型等。这些工作不仅拓展了推荐系统的理论边界，更催生了如PALR算法等经典解决方案，推动了整个领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集