NineRec

arXiv2024-03-17 更新2024-07-30 收录

下载链接：

https://github.com/westlake-repl/NineRec

下载链接

链接失效反馈

官方服务：

资源简介：

NineRec是一个包含大规模源领域推荐数据集和九个不同目标领域推荐数据集的TransRec数据集套件。每个项目都附有描述性文本和高分辨率封面图像。

NineRec is a TransRec dataset suite consisting of a large-scale source-domain recommendation dataset and nine distinct target-domain recommendation datasets. Each item within these datasets is accompanied by descriptive text and high-resolution cover images.

创建时间：

2023-09-14

原始信息汇总

NineRec 数据集概述

数据集介绍

NineRec 是一个用于评估可迁移推荐系统的基准数据集套件，发表于 TPAMI 2024。该数据集支持多模态、基础模型、迁移学习和推荐系统等任务。

数据下载

数据集已全部发布，可通过以下链接下载：

Google Drive: 源数据集, 下游数据集

数据格式

以 QB 数据集为例：

QB_cover：包含原始图像，文件名为物品 ID。
QB_behaviour.tsv：包含用户-物品交互序列，第一列为用户 ID，第二列为物品 ID 序列。
QB_pair.csv：包含用户-物品交互对，第一列为用户 ID，第二列为物品 ID，第三列为时间戳。
QB_item.csv：包含原始文本，第一列为物品 ID，第二列为中文文本，第三列为英文文本。
QB_url.csv：包含物品的 URL 链接，第一列为物品 ID，第二列为 URL。

引用

如使用该数据集，请引用以下论文： bib @article{zhang2023ninerec, title={NineRec: A Benchmark Dataset Suite for Evaluating Transferable Recommendation}, author={Jiaqi Zhang and Yu Cheng and Yongxin Ni and Yunzhu Pan and Zheng Yuan and Junchen Fu and Youhua Li and Jie Wang and Fajie Yuan}, journal={arXiv preprint arXiv:2309.07705}, year={2023} }

代码环境

Pytorch==1.12.1
cudatoolkit==11.2.1
sklearn==1.2.0
python==3.9.12

数据准备

运行 get_lmdb.py 获取图像加载的 lmdb 数据库。运行 get_behaviour.py 将用户-物品对转换为物品序列格式。

实验运行

运行 train.py 进行预训练和迁移。运行 test.py 进行测试。

搜集汇总

数据集介绍

构建方式

NineRec数据集通过从B站等平台收集短视频内容，并提取每个视频的描述文本和封面图片，构建了一个包含大规模源域推荐数据集和九个不同目标域推荐数据集的TransRec数据集套件。数据收集过程历时约10个月，从2021年9月至2022年7月。每个数据集的收集策略相似，都采用了随机选择视频和用户反馈的方式。为了确保数据质量，招募了五名学生手动检查图像和文本，并移除了约1%的低质量项目。

特点

NineRec数据集的特点在于其大规模、高度多样性和丰富的模态内容。源域数据集包含2百万用户、14.4万项内容和2400万个用户-项目交互。目标域数据集涵盖了来自相同平台的五个不同场景和来自不同平台的四个数据集。每个项目都伴随着描述性文本和高分辨率封面图片。NineRec的数据集对于研究纯模态（视觉或文本）推荐更加理想，因为用户观看意图在流媒体中主要可以从项目的视觉外观中推断出来，受非视觉因素如价格的影响较小。

使用方法

使用NineRec数据集的方法包括数据预处理、模型训练和评估。首先，需要对数据进行预处理，包括去除重复内容、检查数据质量等。然后，可以使用不同的推荐模型进行训练，例如基于ID的推荐模型和基于模态的推荐模型。最后，可以使用诸如H@10和N@10等指标对模型进行评估。NineRec数据集的发布将有助于推动推荐系统、自然语言处理和计算机视觉等领域的研究。

背景与挑战

背景概述

推荐系统（RS）在预测用户对未见项目的偏好方面发挥着至关重要的作用。这些模型在广告系统、电子商务网站、搜索引擎和流媒体服务等领域得到了广泛应用。尽管基于内容的推荐模型和协同过滤模型在过去几十年中得到了广泛研究，但基于ID的协同过滤模型（IDRec）由于其在冷启动场景中的局限性以及与现代“基础”模型设计理念的背离，面临着重大挑战。为了克服这些局限性，研究人员开始探索基于多模态内容的推荐模型（MoRec），这种模型能够通过学习原始多模态特征而不是依赖预提取的特征来实现跨域和跨平台推荐。然而，MoRec或TransRec模型尚未得到广泛的关注和成功，主要原因之一是缺乏大规模、高质量的可迁移推荐数据集和基准套件。为了解决这个问题，研究人员提出了NineRec数据集，这是一个包含大规模源域推荐数据集和九个不同目标域推荐数据集的套件。每个项目都附有描述性文本和高分辨率封面图像，为TransRec模型的实现提供了可能性。

当前挑战

NineRec数据集在推动推荐系统领域的可迁移学习研究方面面临着一些挑战。首先，IDRec范式在推荐系统领域已经占据了主导地位，这使得MoRec或TransRec模型难以超越。其次，大规模多模态预训练推荐数据集和多样化的下游数据集稀缺，这限制了TransRec模型在实际应用中的部署。此外，现有的推荐系统数据集往往受其他因素（如价格、销售、品牌、位置等）的影响，这不利于研究纯模态（视觉或文本）推荐。NineRec数据集旨在解决这些问题，但其是否能够完全满足研究需求还有待进一步验证。

常用场景

经典使用场景

NineRec 数据集是一套用于评估可迁移推荐系统的基准数据集。该数据集由一个大规模源域推荐数据集和九个不同的目标域推荐数据集组成。每个项目都伴随着描述性文本和高分辨率封面图像。NineRec 数据集支持从原始多模态特征中学习，而不是依赖于预提取的现成特征。通过使用 NineRec，研究人员可以实施可迁移推荐模型，并在多个经典网络架构上呈现稳健的基准结果，从而为该领域提供宝贵的见解。

解决学术问题

NineRec 数据集解决了推荐系统领域的一个重大挑战，即缺乏大规模、高质量的迁移学习推荐数据集和基准套件。该数据集为可迁移推荐系统（TransRec）的研究提供了宝贵的数据资源，并支持跨域和跨平台推荐任务。此外，NineRec 数据集还促进了自然语言处理（NLP）和计算机视觉（CV）领域与推荐系统（RS）领域的统一。

衍生相关工作

NineRec 数据集的发布推动了可迁移推荐系统（TransRec）的研究。基于 NineRec 数据集，研究人员可以进行迁移学习、预训练和微调等研究，以开发更先进的推荐模型。此外，NineRec 数据集还可以用于评估新图像/文本编码器的通用性，并促进自然语言处理（NLP）和计算机视觉（CV）领域的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集