PixelRec

Name: PixelRec
Creator: 西湖大学
Published: 2023-09-17 12:09:04
License: 暂无描述

arXiv2023-09-17 更新2024-06-21 收录

下载链接：

https://github.com/westlake-repl/PixelRec

下载链接

链接失效反馈

官方服务：

资源简介：

PixelRec是一个大规模的以图像为中心的推荐数据集，由西湖大学创建。该数据集包含约2亿用户-图像交互、3000万用户和40万高质量封面图像。PixelRec通过提供对原始图像像素的直接访问，使推荐模型能够直接从这些像素中学习项目表示。数据集主要用于研究图像内容驱动的推荐模型，特别是在冷启动和跨平台推荐场景中，PixelNet模型展示了其优势。PixelRec的发布旨在推动基于图像像素内容的研究，为推荐系统领域提供一个重要的资源和测试平台。

PixelRec is a large-scale image-centric recommendation dataset developed by Westlake University. It contains approximately 200 million user-image interactions, 30 million user profiles, and 400,000 high-quality cover images. By providing direct access to the raw pixel data of images, PixelRec enables recommendation models to directly learn item representations from these pixels. The dataset is primarily used for research on image content-driven recommendation models, and the PixelNet model has demonstrated its outstanding advantages in cold-start and cross-platform recommendation scenarios. The release of PixelRec aims to advance research on recommendation methods based on image pixel content, providing a vital resource and testbed for the recommender system field.

提供机构：

西湖大学

创建时间：

2023-09-13

搜集汇总

数据集介绍

构建方式

在个性化推荐系统研究领域，视觉内容驱动的数据集构建面临独特挑战。PixelRec数据集通过精心设计的数据采集流程，从专注于内容消费的在线视频分享平台获取原始数据。研究团队历时13个月，通过请求页面更新和视频页面访问，系统性地收集了涵盖主频道及22个垂直频道的微视频封面图像。为强化用户交互信号，该数据集创新性地采用用户评论数据作为交互核心，基于“评论必然蕴含封面图像点击”的合理假设，在保护隐私前提下构建了约2亿条用户-图像交互记录。数据清洗环节通过合并去重和交互数量限制，最终形成包含3000万用户和40万高质量封面图像的大规模数据集。

使用方法

该数据集为推荐系统研究提供了多范式评估平台。在基准测试方面，研究者可采用留一法策略划分训练、验证和测试集，使用Recall@N和NDCG@N等指标评估模型性能。对于传统IDNet模型，可基于用户ID和项目ID嵌入进行训练；而PixelNet范式则需将项目ID嵌入替换为可训练的视觉编码器，实现推荐主干网络与图像编码器的联合优化。在冷启动场景研究中，可按项目流行度对测试数据分组，评估视觉特征对冷项目的推荐效果。跨平台迁移学习任务中，可将PixelRec作为源域预训练数据集，在下游目标域数据集上进行微调验证。实验设置需注意对非序列模型和序列模型采用不同的数据格式处理方式，并根据计算资源合理选择数据集版本和视觉编码器规模。

背景与挑战

背景概述

PixelRec数据集由西湖大学与南洋理工大学的研究团队于2023年提出，旨在推动基于原始像素的视觉推荐系统研究。该数据集聚焦于多媒体内容推荐场景，包含约2亿用户-图像交互、3000万用户及40万高质量封面图像，突破了传统依赖显式ID特征的推荐范式。其核心研究问题在于探索纯图像像素特征在推荐任务中的潜力，特别是在非冷启动场景下的有效性，为构建可迁移的、内容驱动的推荐模型提供了关键资源，对推动推荐系统向多模态基础模型演进具有深远影响。

当前挑战

PixelRec致力于解决视觉推荐系统中依赖原始像素进行项目表征的挑战，其核心问题在于如何仅通过图像内容理解用户偏好，尤其在非冷启动场景下超越传统ID嵌入方法。构建过程中的挑战包括：数据采集需确保图像语义丰富性与多样性，以反映内容平台用户意图；同时，处理大规模原始像素数据对计算资源与训练效率提出极高要求，联合优化视觉编码器与推荐架构面临显著的计算开销与优化难度。

常用场景

经典使用场景

在视觉推荐系统领域，PixelRec数据集为研究纯图像像素驱动的推荐模型提供了基准测试平台。该数据集通过提供海量原始图像像素数据，使研究者能够构建端到端的推荐模型，直接学习从图像像素到用户偏好的映射关系。其经典使用场景在于评估和比较不同视觉编码器与推荐架构的结合效果，为探索图像内容在推荐任务中的潜力奠定数据基础。

解决学术问题

PixelRec数据集主要解决了传统基于ID的推荐模型在冷启动、流行度偏差和跨域迁移方面的固有局限。通过提供纯视觉内容驱动的交互数据，该数据集支持研究如何直接从原始图像像素中学习物品表征，从而缓解冷启动问题并提升模型的泛化能力。其意义在于推动了推荐系统从依赖显式ID特征向利用多模态内容特征的范式转变，为构建通用推荐基础模型提供了关键数据支撑。

实际应用

在实际应用层面，PixelRec数据集可服务于内容消费平台的个性化推荐场景，如短视频、新闻资讯和社交媒体平台。基于该数据集训练的模型能够利用封面图像的视觉特征精准预测用户兴趣，提升内容分发的效率和用户参与度。此外，其跨域迁移能力使得在数据稀缺的新平台上快速部署推荐系统成为可能，为实际业务中的冷启动和跨平台推荐提供了可行的技术路径。

数据集最近研究