RSBench

Name: RSBench
Creator: 南洋理工大学
Published: 2024-11-16 12:35:17
License: 暂无描述

arXiv2024-11-16 更新2024-11-21 收录

下载链接：

http://arxiv.org/abs/2411.10697v1

下载链接

链接失效反馈

官方服务：

资源简介：

RSBench是由南洋理工大学开发的基准问题集，专门用于评估基于大型语言模型的进化算法在推荐系统中的应用。该数据集包含九个多目标实例，旨在通过会话推荐任务来发现一组帕累托最优提示，以指导推荐过程，提供准确、多样和公平的推荐。RSBench的创建过程结合了经典的进化算法框架和大型语言模型的操作，旨在解决推荐系统中的多目标优化问题，特别是在会话推荐中的应用。

RSBench is a benchmark problem suite developed by Nanyang Technological University (NTU), specifically designed to evaluate evolutionary algorithms powered by large language models (LLMs) for recommender system applications. This dataset comprises nine multi-objective instances, which are designed to discover a set of Pareto-optimal prompts via session recommendation tasks to guide the recommendation workflow and deliver accurate, diverse, and fair recommendations. The development of RSBench integrates classical evolutionary algorithm frameworks and the operational capabilities of large language models, with the goal of addressing multi-objective optimization problems in recommender systems, particularly in session recommendation scenarios.

提供机构：

南洋理工大学

创建时间：

2024-11-16

搜集汇总

数据集介绍

构建方式

RSBench数据集的构建聚焦于会话推荐系统，旨在通过短期的匿名行为会话预测用户可能交互的下一个项目。该数据集特别设计用于评估基于大型语言模型（LLM）的进化算法（EAs）在推荐提示优化中的表现。RSBench强调发现一组帕累托最优提示，这些提示能够指导推荐过程，提供准确、多样且公平的推荐。数据集的构建包括定义决策变量和目标函数，并基于真实世界的数据集生成九个多目标实例，以全面评估算法性能。

使用方法

使用RSBench数据集时，研究者可以基于其提供的多目标实例进行算法评估和比较。首先，研究者需要选择合适的LLM-based EAs，如LLM-NSGA-II、LLM-MOEA/D和LLM-IBEA，并根据数据集的设置进行参数调整。随后，通过迭代优化过程，生成和评估推荐提示，最终得到一组帕累托最优解。研究者还可以利用数据集中的训练和验证集来评估算法在不同数据集上的表现，并通过超体积指标等方法来量化算法的性能。

背景与挑战

背景概述

RSBench，由Jiao Liu、Zhu Sun、Shanshan Feng和Yew-Soon Ong于2015年提出，是一个专注于评估基于大型语言模型（LLM）的进化算法（EAs）在推荐系统（RSs）中性能的基准问题集。该数据集的核心研究问题在于通过优化推荐提示（prompts）来提升推荐系统的准确性、多样性和公平性。RSBench的开发不仅填补了该领域的研究空白，还为基于LLM的EAs在RSs中的应用提供了宝贵的见解和指导，推动了推荐系统领域的技术进步。

当前挑战

RSBench在构建过程中面临多重挑战。首先，推荐系统领域的问题复杂性要求算法能够同时优化多个冲突的目标，如推荐准确性、多样性和公平性。其次，构建过程中需要频繁与LLM进行交互，这不仅增加了计算成本，还引入了延迟问题。此外，如何高效且准确地估计目标函数值，以减少对LLM的依赖，也是一个亟待解决的问题。这些挑战不仅影响了RSBench的实际应用效果，也为未来的研究提供了广阔的空间。

常用场景

经典使用场景

RSBench 数据集的经典使用场景主要集中在评估基于大型语言模型（LLM）的进化算法（EAs）在推荐系统（RSs）中的性能。具体而言，RSBench 专注于会话推荐，旨在通过优化推荐提示来提升推荐的准确性、多样性和公平性。通过 RSBench，研究者可以开发和测试基于 LLM 的 EAs，以发现一组帕累托最优提示，从而指导推荐过程，提供更精准、多样且公平的推荐。

解决学术问题

RSBench 数据集解决了推荐系统领域中常见的多目标优化问题。传统的推荐系统往往难以同时兼顾推荐的准确性、多样性和公平性，而 RSBench 通过引入多目标进化算法，能够有效地在多个冲突目标之间找到平衡。这不仅提升了推荐系统的整体性能，还为学术界提供了一个标准化的基准，用于评估和比较不同算法在推荐提示优化方面的效果，推动了推荐系统研究的发展。

实际应用

在实际应用中，RSBench 数据集可以帮助企业和研究机构优化其推荐系统，提升用户体验。例如，电商平台可以通过 RSBench 优化推荐提示，提供更符合用户兴趣且多样化的商品推荐，从而提高用户满意度和购买转化率。此外，RSBench 还可以应用于新闻推荐、音乐推荐等多个领域，通过优化推荐提示，确保推荐内容既准确又多样化，同时避免推荐中的偏见和不公平现象。

数据集最近研究