PixelRec

Name: PixelRec
Creator: PixelRec
Published: 2025-09-30T13:36:04+08:00

arXiv2025-09-30 收录

视频封面推荐

推荐系统

数据链接：

https://github.com/westlake-repl/pixelrec 数据链接链接失效反馈

官方服务：

资源简介：

该数据集收集了用户的微视频观看记录，旨在用于评估生成的视频封面是否能够反映用户的偏好。此外，该数据集还支持进行个性化微视频封面生成的任务。

This dataset collects users' micro-video viewing histories, with the aim of evaluating whether generated video covers can reflect users' preferences. Moreover, this dataset also supports the task of personalized micro-video cover generation.

提供机构：

PixelRec

搜集汇总

数据集介绍

构建方式

PixelRec数据集源自一个以内容消费为核心的在线视频分享平台，而非电子商务网站，数据采集历时13个月，覆盖了主频道及22个垂直频道，以确保内容的多样性。数据集以视频封面图像作为项目表示，因为封面图像与用户点击行为高度相关。通过请求页面更新获取视频链接，并随机选择1-3个视频进行扩展，去重后收集了包括观看数、评论数、点赞数等在内的多种视频特征。用户反馈通过收集评论数据获得，每条视频最多记录6500条用户交互，最终聚合形成包含约2亿用户-图像交互、3000万用户和40万高质量封面图像的PixelRec数据集。为便于学术研究，还通过随机采样提供了Pixel200K、Pixel1M和Pixel8M三个子集。

特点

PixelRec具备多项显著特点：首先，它提供原始图像像素，使推荐模型能够直接从像素中学习项目表示，避免了预提取特征的局限性。其次，数据集包含丰富的元数据特征，如视频标签、文本描述和交互统计，支持点击率预测等任务。第三，多样性突出，涵盖118个标签，包括电影、游戏、美食、科技等广泛主题，图像语义复杂度高于Amazon等电商数据集。第四，规模庞大，是最大的视觉推荐数据集之一，用户-图像交互量居首。最后，其内容驱动的推荐场景使用户行为主要受视觉内容影响，而非价格或品牌等非视觉因素，为研究纯视觉推荐提供了理想环境。

使用方法

PixelRec适用于多种推荐模型的研究与评估。传统方法中，IDNet模型利用用户和项目ID嵌入进行推荐，而PixelNet则用可训练的视觉编码器（如CLIP-ResNet50或CLIP-ViT）替代ID嵌入，直接从原始像素学习项目表示。数据集采用留一法划分训练、验证和测试集，并以Recall@N和NDCG@N作为评估指标。PixelNet在顺序推荐骨干网络（如SASRec、BERT4Rec）上表现优异，尤其在冷启动和跨域推荐场景中优势明显。研究者可在PixelRec上预训练模型，再微调至目标数据集，或探索联合训练与冻结特征的对比。此外，PixelRec还支持对视觉编码器（如Swin Transformer、BEiT）和推荐架构的系统性基准测试。

背景与挑战

背景概述

在推荐系统领域，基于显式标识符（如用户ID和物品ID）的模型长期占据主导地位，然而这类方法在冷启动、跨域迁移以及缓解流行度偏差等方面存在固有局限。近年来，随着视觉基础模型（如Vision Transformer）的突破性进展，利用原始图像像素特征进行物品表征成为极具潜力的研究方向，但受限于缺乏大规模、高质量且纯粹基于视觉内容的推荐数据集。为此，西湖大学与南洋理工大学的研究人员于2023年共同构建了PixelRec数据集，该数据集包含约2亿条用户-图像交互记录、3000万用户及40万张高分辨率封面图像，旨在推动直接从原始像素学习物品表征的推荐模型研究，为视觉内容驱动的推荐系统提供了关键基准测试平台。

当前挑战

PixelRec所应对的核心挑战在于，传统IDNet模型在冷启动物品推荐中性能骤降，且其ID特征不可迁移，严重限制了跨平台应用。同时，现有图像推荐数据集多提供预提取的冻结视觉特征，而非原始像素，这阻碍了推荐模型与视觉编码器的联合优化。构建过程中，数据采集面临诸多困难：需从内容平台的海量视频中筛选高质量封面图像，并确保用户交互（评论行为）能有效映射为点击信号；此外，13个月的爬取周期内需处理超大规模用户隐私保护与版权合规问题。最终，联合训练视觉编码器与推荐骨干网络的计算开销极高，例如PixelNet在Pixel200K上需约85小时完成训练，这成为模型实用化的重要瓶颈。

常用场景

经典使用场景

在推荐系统研究领域，PixelRec数据集的核心价值在于为基于原始图像像素的推荐模型提供了大规模、多样化的训练与评估平台。该数据集包含约2亿条用户-图像交互记录、3000万用户及40万张高质量封面图像，尤其适用于构建无需依赖显式ID特征、仅通过视觉内容进行物品表征的推荐系统。研究者可借助PixelRec，在非冷启动、冷启动及跨域推荐等经典场景下，系统性地评估图像编码器与推荐架构的协同效果，从而推动视觉驱动推荐范式的演进。

解决学术问题

PixelRec有效回应了推荐系统领域对纯视觉内容表征能力的迫切需求。传统IDNet模型在冷启动、跨平台迁移及流行度偏差等问题上存在固有局限，而PixelRec通过提供原始像素级图像数据，使研究者能够直接训练端到端的像素级推荐模型（PixelNet）。该数据集解决了学术界长期缺乏大规模、内容驱动且包含原始图像的高质量推荐基准的困境，为验证视觉特征在非冷启动场景下能否媲美甚至超越IDNet提供了关键实验依据，进而推动了推荐系统从ID依赖向内容理解的范式转型。

衍生相关工作

PixelRec的发布催生了一系列围绕纯视觉推荐的前沿研究工作。其中，PixelNet作为代表性衍生框架，通过用可训练的现代视觉编码器替代传统ID嵌入，在序列推荐骨干网络上取得了与IDNet相当甚至更优的性能。此外，研究者基于PixelRec探索了多种视觉编码器（如Swin Transformer、CLIP-ResNet）的基准评测，揭示了模型规模与推荐精度之间的非线性关系。该数据集还推动了跨域推荐中的预训练-微调范式研究，并启发了诸如语义ID生成、高效联合训练等新兴方向，为下一代视觉推荐系统的构建奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

PixelRec

资源简介：

相关数据集