RecBench+

Name: RecBench+
Creator: 香港理工大学
Published: 2025-03-12 21:28:23
License: 暂无描述

arXiv2025-03-12 更新2025-03-14 收录

下载链接：

https://github.com/jiani-huang/RecBench.git

下载链接

链接失效反馈

官方服务：

资源简介：

RecBench+是由香港理工大学构建的一个新数据集，旨在评估大型语言模型作为个性化推荐助手的能力。该数据集包含大约3万个高质量的复杂用户查询，涵盖了不同难度、用户指定的条件数量以及用户画像，反映了现实世界推荐场景中多样化的用户需求。RecBench+根据用户查询的类型，分为基于条件和基于用户画像的查询，以评估推荐助手在不同场景下的性能。该数据集是首个公开可用于有效评估LLM时代个性化推荐助手性能的数据集。

RecBench+ is a novel dataset constructed by The Hong Kong Polytechnic University, designed to evaluate the capabilities of large language models (LLMs) as personalized recommendation assistants. It contains approximately 30,000 high-quality complex user queries, covering varying difficulty levels, numbers of user-specified conditions and user profiles, which reflect diverse user needs in real-world recommendation scenarios. RecBench+ is categorized into condition-based and profile-based queries according to the type of user queries, to assess the performance of recommendation assistants in different scenarios. This dataset is the first publicly available resource for effectively evaluating the performance of personalized recommendation assistants in the LLM era.

提供机构：

香港理工大学

创建时间：

2025-03-12

搜集汇总

数据集介绍

构建方式

RecBench+ 数据集的构建采用了一种创新的方法，旨在模拟真实世界中的推荐场景。数据集由大约 30,000 个高质量的复杂用户查询组成，这些查询基于多个常用推荐数据集构建，如 Movielens-1M 和 Amazon book。这些查询涵盖了各种难度级别，用户指定的条件数量和用户配置文件，从而有效地反映了现实世界中用户需求的多样性。

特点

RecBench+ 数据集的特点在于其包含的查询多样性。数据集涵盖了各种难度级别、用户指定的条件数量和用户配置文件，从而有效地反映了现实世界中用户需求的多样性。此外，数据集还包含了高质量的文本用户查询，这些查询能够反映现实世界的推荐场景，使其成为评估基于 LLM 的个性化推荐助手的理想选择。

使用方法

RecBench+ 数据集的使用方法如下：1) 下载数据集：可以从 https://github.com/jiani-huang/RecBench.git 下载 RecBench+ 数据集。2) 数据准备：将数据集解压并准备好用于实验。3) 模型选择：选择合适的 LLM 模型进行评估。4) 实验设置：根据论文中的描述设置实验参数。5) 评估指标：使用 Precision、Recall、Condition Match Rate (CMR) 和 Fail to Recommend (FTR) 等指标评估模型的性能。6) 结果分析：分析实验结果，了解 LLM 在处理复杂用户查询方面的优势和局限性。

背景与挑战

背景概述

随着现代数字平台的广泛应用，推荐系统（RecSys）在电子商务、娱乐和教育等领域发挥着至关重要的作用。然而，传统的推荐系统通常只能处理固定和简单的推荐场景，难以推广到新的、未知的推荐任务。近年来，大型语言模型（LLMs）的兴起为推荐系统带来了革命性的变化，推动了其向更智能、更交互式的个性化推荐助手发展。为了评估LLMs在个性化推荐助手方面的能力，Huang等人提出了RecBench+数据集。该数据集包含约30,000个高质量的复杂用户查询，旨在评估LLMs在处理真实世界推荐场景中的能力。RecBench+数据集的发布为评估LLMs在个性化推荐助手方面的能力提供了重要的工具，并对相关领域的研究产生了深远的影响。

当前挑战

RecBench+数据集在评估LLMs的能力方面面临着一些挑战。首先，LLMs在处理具有明确条件的查询时表现更好，但在需要推理或包含误导信息的查询中面临更大的挑战。其次，LLMs在理解用户个人资料方面存在差异，对于不同用户兴趣和人口统计数据的查询，其性能表现不一。此外，构建RecBench+数据集的过程中，如何生成真实、多样的查询，反映用户如何组合物品属性，也是一个挑战。为了解决这些挑战，RecBench+数据集采用了知识图谱（KG）来提取有意义的条件和生成查询，并利用LLMs模拟用户行为。同时，RecBench+数据集还考虑了用户交互历史，以生成更个性化的推荐。

常用场景

经典使用场景

RecBench+数据集是专为评估大型语言模型（LLMs）在个性化推荐助手中的应用而设计的。它包含大量高质量和复杂的用户查询，这些查询涵盖了从硬性条件到软性偏好，难度各不相同。该数据集模拟了真实世界中的推荐场景，使得LLMs能够在更加贴近实际应用的环境中接受评估。

衍生相关工作

RecBench+数据集的推出，推动了LLMs在个性化推荐助手领域的进一步研究。研究者可以利用该数据集评估LLMs在不同场景下的性能，并探索如何优化LLMs的推荐效果。此外，RecBench+还为其他类似的数据集提供了参考，促进了推荐系统领域的发展。

数据集最近研究