RECBENCH-MD

Name: RECBENCH-MD
Creator: 香港理工大学、华为诺亚方舟实验室、厦门大学、深圳大学
Published: 2025-08-29 14:40:52
License: 暂无描述

arXiv2025-08-29 更新2025-09-03 收录

下载链接：

https://www.kaggle.com/datasets/qijiong/recbench-md

下载链接

链接失效反馈

官方服务：

资源简介：

RECBENCH-MD是一个全面的数据集，旨在评估基础模型在不同领域和任务中的推荐能力。该数据集包含了来自10个不同领域（如电子商务、娱乐和社交媒体）的15个数据集，涉及19个基础模型。数据集的创建是为了解决推荐系统领域中模型选择和评估的难题，通过跨领域、跨数据集的训练和评估，帮助研究人员更好地理解基础模型的推荐能力。

RECBENCH-MD is a comprehensive dataset developed to evaluate the recommendation capabilities of foundation models across various domains and tasks. It includes 15 datasets sourced from 10 distinct domains such as e-commerce, entertainment and social media, involving 19 foundation models. This dataset is created to address the challenges of model selection and evaluation in the field of recommendation systems. Through cross-domain and cross-dataset training and evaluation, it assists researchers in gaining a better understanding of the recommendation performance of foundation models.

提供机构：

香港理工大学、华为诺亚方舟实验室、厦门大学、深圳大学

创建时间：

2025-08-29

搜集汇总

数据集介绍

构建方式

RECBENCH-MD基准测试的构建采用了系统化的多领域数据整合方法，涵盖电子商务、娱乐和社交媒体等10个不同领域。研究团队从15个公开数据集中精选了代表性样本，每个测试集包含约20,000个样本，微调集则包含约100,000个样本。通过严格的预处理流程，保留最具代表性的文本内容特征，并将用户行为序列截断为最大20个交互记录，确保数据质量与一致性。采用参数高效的LoRA微调策略，设置秩为32和alpha为128，学习率统一为1e-4，使用Adam优化器进行模型优化。

使用方法

使用RECBENCH-MD进行评估时，研究人员可通过配置不同的微调设置来系统测试基础模型的推荐能力。支持从零样本评估到多领域联合训练的全套实验方案。对于提示基于推荐方法，需要将用户序列与候选项目文本特征拼接，并添加任务特定指令，引导模型预测特定输出词元。嵌入基于方法则采用双塔架构，使用基础模型作为用户和项目编码器学习密集表示。评估协议采用GAUC、NDCG、MRR等排序指标和F1、RECALL等匹配指标，同时设计了互惠排名平均指标来评估每个微调集的贡献。所有实验可通过开源代码库进行配置，支持大规模推荐模型的高效评估。

背景与挑战

背景概述

RECBENCH-MD由香港理工大学与华为诺亚方舟实验室等机构于2025年联合推出，旨在系统评估基础模型在推荐任务中的零样本泛化能力。该研究聚焦多领域、多数据集的推荐场景，涵盖电子商务、娱乐、社交媒体等10个领域下的15个数据集，通过构建八种精细化评估设置，填补了传统推荐基准在跨域迁移与模型泛化评估方面的空白。其开创性工作为推荐系统基础模型的开发提供了标准化评估框架，推动了领域从单一数据集范式向多域协同范式的转型。

当前挑战

该数据集核心挑战在于解决推荐系统领域的基础模型泛化能力评估问题，需应对不同领域间数据分布差异、用户行为模式异构性以及文本特征语义鸿沟等难题。构建过程中面临多源数据集整合复杂性，包括数据标准化处理、跨域实体对齐缺失下的知识迁移，以及超大规模模型评估的算力成本控制。此外，需设计兼顾提示排序与嵌入匹配的双重评估范式，确保基准在模型规模、领域覆盖及评估维度上的全面性与可比性。

常用场景

经典使用场景

在推荐系统研究领域，RECBENCH-MD作为多领域基准测试平台，主要用于评估基础模型在零样本和跨数据集场景下的推荐能力。该数据集通过整合15个不同领域的数据集，覆盖电子商务、新闻、视频等10个垂直领域，支持研究者系统性地测试模型在单领域单数据集、跨领域跨数据集等八种推荐设置下的性能表现。其经典应用包括验证提示排序与嵌入匹配两种推荐方法的有效性，为模型选择与优化提供实证依据。

解决学术问题

RECBENCH-MD解决了推荐系统研究中基础模型评估标准不统一、领域覆盖局限的核心问题。通过构建多领域多数据集的评估框架，该数据集首次实现了对19种基础模型在零资源场景下的系统化评测，揭示了模型规模与跨领域泛化能力之间的正相关关系。其意义在于突破了传统单领域评估的局限性，为推荐基础模型的开发提供了跨域迁移学习与多领域联合训练的理论支撑，推动了推荐系统向通用化、自适应方向的演进。

实际应用

在实际应用层面，RECBENCH-MD为工业界推荐系统的冷启动和跨域迁移提供了实用解决方案。通过验证跨数据集微调作为模型预热策略的有效性，该数据集支持企业在新业务场景中快速部署推荐模型，例如利用电商数据训练的模型迁移至酒店推荐场景。其多领域特性尤其适用于拥有多元业务的大型平台（如亚马逊、微软），能够通过统一模型架构降低多领域推荐系统的开发与维护成本，提升资源利用效率。

数据集最近研究