RecBench

Name: RecBench
Creator: 香港理工大学
Published: 2025-03-07 23:05:23
License: 暂无描述

arXiv2025-03-07 更新2025-03-11 收录

下载链接：

https://recbench.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

RecBench是由香港理工大学等机构提出的推荐系统评估平台，该平台旨在全面评估大型语言模型在推荐任务中的性能。它涵盖了不同的项目表示形式，并评估了点击率预测和序列推荐两个主要推荐任务。该平台评估了17种大型模型，并使用来自时尚、新闻、视频、书籍和音乐领域的五个不同数据集进行实验。RecBench提供了一个深入的评估，以推动推荐系统中大型语言模型的研究与发展。

RecBench is a recommender system evaluation platform proposed by The Hong Kong Polytechnic University and other institutions. This platform aims to comprehensively evaluate the performance of large language models (LLMs) in recommendation tasks. It covers diverse item representation forms, and evaluates two core recommendation tasks: click-through rate (CTR) prediction and sequential recommendation. The platform evaluates 17 large-scale models and conducts experiments using five distinct datasets from the domains of fashion, news, video, books, and music. RecBench provides an in-depth evaluation to advance the research and development of large language models in recommender systems.

提供机构：

香港理工大学

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

RecBench数据集通过系统地研究各种项目表示形式，包括唯一标识符、文本、语义嵌入和语义标识符，并评估两个主要的推荐任务，即点击率预测（CTR）和顺序推荐（SeqRec）。实验覆盖了17个大型模型，并在来自时尚、新闻、视频、书籍和音乐领域的五个不同数据集上进行。实验结果表明，基于LLM的推荐器在推荐能力方面优于传统的推荐器，在CTR场景中AUC提高了5%，在SeqRec场景中NDCG@10提高了170%。然而，这些显著的性能提升是以显著的推理效率降低为代价的，使得LLM-as-RS范式在实时推荐环境中不切实际。我们旨在通过我们的发现来激发未来的研究，包括推荐特定的模型加速方法。我们将发布我们的代码、数据、配置和平台，以便其他研究人员可以重复和构建我们的实验结果。

特点

RecBench数据集的特点在于它提供了对LLM-as-RS范式的全面评估。它不仅覆盖了多种项目表示形式，还涵盖了两个主要的推荐任务，并使用了来自不同领域的五个数据集。这使得RecBench成为一个全面且多样化的评估平台，可以深入了解LLM在推荐任务中的表现。此外，RecBench还评估了推荐模型的效率，使其成为Green AI原则下大型模型时代的理想选择。

使用方法

使用RecBench数据集的方法包括选择适当的项目表示形式，如唯一标识符、文本、语义嵌入或语义标识符，并针对CTR预测或SeqRec任务进行模型训练和评估。用户可以根据需要选择不同的LLM模型，并使用提供的数据集和代码进行实验。为了提高效率，可以采用低秩适应（LoRA）技术进行参数高效的大语言模型微调。此外，还可以使用条件束搜索（CBS）技术来确保解码的语义标识符序列映射到有效的项目。通过这些方法，用户可以全面评估LLM在推荐任务中的性能，并为未来的研究提供有价值的见解。

背景与挑战

背景概述

随着互联网用户对个性化信息需求的增长，推荐系统已成为信息检索和在线服务中的关键组件。近年来，大型语言模型（LLMs）的集成为推荐系统带来了新的机遇，提高了推荐质量。为了全面评估和比较LLMs与传统推荐系统的推荐能力，Qijiong Liu等人于2025年提出了RecBench数据集。该数据集系统地研究了各种项目表示形式，并评估了点击通过率预测（CTR）和顺序推荐（SeqRec）两项主要推荐任务。RecBench数据集涵盖了来自时尚、新闻、视频、书籍和音乐领域的五个不同数据集，并对多达17个大型模型进行了广泛的实验。研究结果表明，基于LLMs的推荐器在CTR场景中实现了高达5%的AUC改进，在SeqRec场景中实现了高达170%的NDCG@10改进。然而，这些显著的性能提升是以显著降低推理效率为代价的，使得LLM-as-RS范式在实时推荐环境中难以实用。该研究旨在激发未来研究，包括推荐特定模型加速方法。

当前挑战

RecBench数据集相关的挑战包括：1) 所解决的领域问题的挑战，即如何提高推荐系统的准确性和效率；2) 构建过程中所遇到的挑战，包括如何有效地整合LLMs与传统推荐系统，以及如何解决LLMs在实时推荐环境中的效率问题。RecBench数据集的评估结果表明，尽管基于LLMs的推荐器在各种场景中展现出显著的性能改进，但其效率限制阻碍了实际部署。未来研究应重点开发LLMs在推荐中的推理加速技术。此外，传统的DLRMs增强LLM支持（即LLM-for-RS范式）可以实现与独立LLMs推荐器相当的性能，同时运行速度更快。因此，提高LLM能力与传统DLRMs的集成代表了有希望的研究方向。

常用场景

经典使用场景

RecBench数据集主要用于评估和比较大型语言模型（LLMs）与传统推荐系统在推荐任务中的性能。该数据集涵盖了多种商品表示形式，包括唯一标识符、文本、语义嵌入和语义标识符，并评估了点击率预测（CTR）和序列推荐（SeqRec）两种主要的推荐任务。通过在五个不同领域的数据集上进行的广泛实验，RecBench展示了LLM-based推荐器在准确率方面的优势，但也指出了其推理效率的不足。

解决学术问题

RecBench数据集解决了传统推荐系统在冷启动场景和需要自然语言理解和生成的任务中的局限性。LLM-based推荐器在CTR和SeqRec任务中表现出色，特别是在冷启动场景下。然而，这些性能提升是以显著降低推理效率为代价的，使得LLM-as-RS范式在实际部署中面临挑战。RecBench的评估结果表明，LLM-for-RS范式通过将LLM能力集成到传统DLRMs中，可以在保持较高效率的同时，实现与独立LLM推荐器相当的性能，为推荐系统的研究提供了新的方向。

衍生相关工作

RecBench数据集的提出和评估为推荐系统领域的研究提供了重要的参考和启示。基于RecBench的评估结果，研究人员可以进一步探索LLM-based推荐器的优化方向，例如模型加速技术、更有效的语义嵌入方法等。此外，RecBench的评估结果还表明，LLM-for-RS范式在保持效率的同时，可以实现与独立LLM推荐器相当的性能，为推荐系统的研究提供了新的方向。因此，RecBench数据集对于推动推荐系统领域的研究和发展具有重要意义。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集