RecBench+

github2025-03-13 更新2025-03-04 收录

下载链接：

https://github.com/jiani-huang/RecBench

下载链接

链接失效反馈

官方服务：

资源简介：

RecBench+是第一个公开的数据集，可用于有效评估LLM时代个性化推荐助手的性能。该数据集包含约30,000个查询，涵盖电影和书籍领域，分别从movielens-1m和Amazon-Book构建。它分为2个主要类别和5个子类别。

RecBench+ is the first publicly available dataset for effectively evaluating the performance of personalized recommendation assistants in the LLM era. This dataset contains approximately 30,000 queries covering the movie and book domains, which are constructed separately from Movielens-1M and Amazon-Book. It is divided into 2 main categories and 5 subcategories.

创建时间：

2025-02-25

原始信息汇总

RecBench+ 数据集概述

数据集基本信息

名称: RecBench+
论文标题: Towards Next-Generation Recommender Systems: A Benchmark for Personalized Recommendation Assistant with LLMs
论文链接: https://arxiv.org/abs/2503.09382
数据量: 约30,000条查询
数据来源:
- MovieLens-1m（电影领域）
- Amazon-Book（图书领域）

数据集分类

主要类别: 2类
- Condition-based Query（基于条件的查询）
- User Profile-based Query（基于用户画像的查询）
子类别: 5类
- Explicit Condition Query（显式条件查询）
- Implicit Condition Query（隐式条件查询）
- Misinformed Condition Query（错误信息条件查询）
- Interest-based Query（基于兴趣的查询）
- Demographics-based Query（基于人口统计的查询）

数据示例

Condition-based Query

显式条件查询

示例字段:
- source_user: 数据来源用户ID
- condition_num: 条件数量
- movieCount: 满足条件的电影数量
- movieSubset: 满足条件的电影名称列表
- sharedRelationships: 条件列表
- direct_description_query: 直接描述条件的查询
- situational_description_query: 带上下文的查询

隐式条件查询

额外字段:
- multihop_info: 用于隐式描述条件的信息

错误信息条件查询

额外字段:
- misinformed: 错误信息列表

User Profile-based Query

基于兴趣的查询

示例字段:
- reason: 推荐理由
- query: 用户查询
- movie subset: 推荐电影列表

基于人口统计的查询

示例字段:
- reason: 推荐理由
- query: 用户查询
- movie subset: 推荐电影列表

搜集汇总

数据集介绍

构建方式

RecBench+数据集的构建是基于movielens-1m和Amazon-Book两大来源，从电影和书籍领域收集约30,000个查询，旨在为评估大型语言模型时代个性化推荐助手性能提供有效工具。数据集按照两个主要类别和五个子类别进行组织，每个查询均来源于用户交互历史，并包含条件信息、电影列表以及对应的描述性查询。

特点

该数据集的特点在于其首次公开可用，专门针对评估个性化推荐助手在大型语言模型时代的性能。它不仅提供了基于明确条件的查询，还包含了情境描述查询，以及用户个人资料为基础的查询，从而为研究者提供了一个多元化的测试平台，以评估推荐系统的多样性和准确性。

使用方法

用户可以通过数据集中的示例来了解如何使用该数据集。每个查询都包括了来源用户ID、条件数量、满足条件的电影数量及列表、条件详情、直接描述查询、情境描述查询以及数据索引等信息。这些详细的结构化数据使得研究者能够方便地导入数据集，并根据需要设计实验，以测试和提升推荐系统的性能。

背景与挑战

背景概述

RecBench+数据集，作为个性化推荐助手性能评估的开创性公开数据集，诞生于大规模语言模型（LLMs）时代。该数据集由movielens-1m和Amazon-Book中的电影和书籍领域构成，包含约30,000个查询，旨在推动新一代推荐系统的研究。它由两大类和五个子类别组成，为个性化推荐系统的研究提供了宝贵的资源。该数据集的创建，标志着推荐系统领域向着更加智能化和个性化的方向发展，对相关研究产生了重要影响。

当前挑战

RecBench+数据集在构建过程中所面临的挑战主要包括：如何准确捕捉和表达用户的个性化查询，以及如何高效地处理和匹配大规模的数据集。此外，该数据集在解决推荐系统领域问题，如提高推荐的个性化和准确性方面，也面临着显著挑战。具体而言，如何在利用大规模语言模型的基础上，实现精准的条件匹配和情境感知推荐，是该数据集需要解决的核心问题。

常用场景

经典使用场景

在当前人工智能技术迅速发展的背景下，RecBench+数据集应运而生，其经典使用场景主要在于评估大型语言模型（LLMs）时代下个性化推荐助手的表现。该数据集通过精心设计的查询实例，为研究人员提供了一个标准的测试平台，使其能够有效地测试和比较不同推荐系统的性能。

解决学术问题

RecBench+数据集解决了长期以来缺乏一个全面、统一的评估个性化推荐系统性能的问题。它通过包含大约30,000个涉及电影和书籍领域的查询，为学术界提供了一个有力的工具，以研究如何提高推荐系统的准确性和用户满意度，进而推动推荐系统领域的学术研究向前发展。

衍生相关工作

基于RecBench+数据集，学术界和工业界已经衍生出一系列相关工作，包括对现有推荐算法的改进、新型推荐系统的设计，以及针对特定用户行为的深入分析。这些研究不仅拓宽了推荐系统技术的应用范围，也为相关领域的理论发展和技术进步提供了丰富的实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集