NineRec
收藏github2024-05-31 收录
下载链接:
https://github.com/westlake-repl/NineRec
下载链接
链接失效反馈资源简介:
NineRec是西湖大学提出的一个大规模、多样性的推荐系统评估基准数据集,旨在解决推荐系统领域迁移学习模型发展的瓶颈问题,尤其是缺乏大规模、高质量的迁移学习推荐数据集和基准测试套件。NineRec包含一个大规模源域数据集和九个多样化的目标域数据集,涵盖短视频、新闻、图像等多种类型的原始内容。每条数据均配有描述性文本和高分辨率封面图像,使得模型能够通过学习原始多模态特征而非仅依赖预提取的特征来进行训练。NineRec的丰富视觉与语义多样性,为推荐模型的可迁移性研究提供了宝贵的预训练资源,同时揭示了TransRec模型在跨界推荐任务中的潜力与挑战。
NineRec is a large-scale, diverse benchmark dataset for recommender system evaluation proposed by Westlake University. It aims to address the bottlenecks in the development of transfer learning models in the recommender system domain, particularly the shortage of large-scale, high-quality transfer learning recommendation datasets and benchmark suites. NineRec comprises one large-scale source domain dataset and nine diverse target domain datasets, covering a wide range of raw content types such as short videos, news, and images. Each sample is paired with descriptive text and high-resolution cover images, enabling models to be trained by learning raw multimodal features instead of solely relying on pre-extracted features. Leveraging its rich visual and semantic diversity, NineRec provides valuable pre-training resources for research on the transferability of recommender models, while also revealing the potential and challenges of the TransRec model in cross-domain recommendation tasks.
提供机构:
西湖大学
原始信息汇总
数据集概述
名称: NineRec
描述: NineRec 是一个用于评估可转移推荐系统的基准数据集套件。该数据集支持多种任务,包括多模态学习、基础模型、迁移学习和推荐系统。
数据集特点
- 多模态: 支持多模态数据处理。
- 基础模型: 适用于基础模型的评估和开发。
- 迁移学习: 用于迁移学习任务的评估。
- 推荐系统: 专注于推荐系统的性能评估。
数据集内容
- 数据格式: 以QB为例,数据集包含以下文件:
QB_cover: 包含以物品ID命名的原始JPG图像。QB_behaviour.tsv: 包含用户-物品交互的物品序列格式数据。QB_pair.csv: 包含用户-物品交互的用户-物品对格式数据。QB_item.csv: 包含物品的原始文本信息,包括中文和英文描述。QB_url.csv: 包含物品的URL链接。
数据集下载
- 下载链接: 数据集可通过Google Drive下载,包括源数据集和下游数据集。
数据集引用
- 引用格式: bib @article{zhang2023ninerec, title={NineRec: A Benchmark Dataset Suite for Evaluating Transferable Recommendation}, author={Jiaqi Zhang and Yu Cheng and Yongxin Ni and Yunzhu Pan and Zheng Yuan and Junchen Fu and Youhua Li and Jie Wang and Fajie Yuan}, journal={arXiv preprint arXiv:2309.07705}, year={2023} }
数据集使用注意事项
- 禁止私自修改: 禁止私自修改数据集后进行二次分发。如需修改,鼓励开源数据处理代码或通知数据集维护者。
AI搜集汇总
数据集介绍

构建方式
NineRec数据集的构建基于多模态和跨域推荐系统的研究需求,通过整合多种数据源,包括图像、文本和用户行为数据,形成了一个综合性的基准数据集。该数据集的构建过程中,特别注重数据的多样性和代表性,以确保其在评估推荐系统可迁移性方面的有效性。数据集的每个部分都经过精心设计,以支持从源域到目标域的推荐模型训练和评估。
特点
NineRec数据集的主要特点在于其多模态和跨域的特性,这使得它能够支持多种推荐任务的研究,包括但不限于多模态推荐、基础模型推荐和迁移学习推荐。此外,数据集的结构设计允许用户在不同的推荐场景中进行实验,从而评估推荐系统的泛化能力和适应性。数据集还提供了丰富的元数据和预处理工具,便于研究人员快速上手和进行深入分析。
使用方法
使用NineRec数据集进行研究时,用户首先需要下载数据集,并根据提供的代码进行数据预处理,以生成适合模型训练的数据格式。数据集提供了详细的文档和示例代码,指导用户如何将数据转换为LMDB数据库格式,以便于图像加载和用户行为数据的序列化。随后,用户可以根据自己的研究需求,选择合适的模型进行预训练和迁移学习实验,并通过提供的评估脚本对模型性能进行测试和分析。
背景与挑战
背景概述
NineRec数据集是由西湖大学研究人员主导创建的,旨在评估可迁移推荐系统的基准数据集套件。该数据集于2023年发布,主要研究人员包括张佳琪、程宇、倪永新等,其核心研究问题聚焦于推荐系统的可迁移性。NineRec不仅涵盖了多模态数据,还涉及基础模型和迁移学习任务,对推荐系统领域的研究具有重要影响力。通过提供丰富的数据和详细的实验设置,NineRec为研究人员提供了一个全面的平台,以探索和优化推荐系统的性能。
当前挑战
NineRec数据集在构建过程中面临多项挑战。首先,推荐系统的可迁移性研究需要处理跨域和跨平台的数据,这要求数据集具备高度的多样性和代表性。其次,数据集的构建涉及大量的计算资源和时间成本,尤其是在进行端到端训练时。此外,NineRec还面临着如何有效预训练推荐模型的问题,当前缺乏广泛接受的预训练范式,导致模型性能提升受限。因此,NineRec的挑战不仅在于数据集的构建,还在于如何推动更高效和有效的预训练方法的发展。
常用场景
经典使用场景
在推荐系统领域,NineRec数据集以其多模态和跨域特性,成为评估可迁移推荐模型的基准。该数据集整合了图像、文本和用户行为数据,为研究者提供了一个全面的环境来测试和优化推荐算法。其经典使用场景包括但不限于:在不同平台间迁移推荐模型,验证多模态特征对推荐效果的提升,以及探索预训练模型在推荐系统中的应用。
解决学术问题
NineRec数据集解决了推荐系统研究中长期存在的跨域推荐和多模态数据融合问题。通过提供丰富的多模态数据和跨平台用户行为记录,该数据集使得研究者能够更有效地评估和改进推荐模型的可迁移性和泛化能力。这对于推动推荐系统领域的理论研究和实际应用具有重要意义,尤其是在面对数据稀疏和冷启动问题时,NineRec提供了一个有力的工具和平台。
衍生相关工作
NineRec数据集的发布激发了大量相关研究工作,特别是在多模态推荐系统和跨域推荐模型方面。例如,基于NineRec的研究已经推动了预训练推荐模型的发展,如TransRec模型,该模型通过端到端训练显著提升了推荐效果。此外,NineRec还促进了多模态数据融合技术的研究,为推荐系统提供了更丰富的特征表示。这些衍生工作不仅丰富了推荐系统的理论基础,也为实际应用提供了新的技术支持。
以上内容由AI搜集并总结生成



