ORBIT - Open Recommendation Benchmark for Reproducible Research with Hidden Tests

Name: ORBIT - Open Recommendation Benchmark for Reproducible Research with Hidden Tests
Creator: 卡内基梅隆大学语言技术研究所
Published: 2025-10-30 11:10:45
License: 暂无描述

arXiv2025-10-30 更新2025-11-01 收录

下载链接：

https://www.open-reco-bench.ai

下载链接

链接失效反馈

官方服务：

资源简介：

ORBIT是一个统一的基准，旨在为推荐系统的评估提供一个标准化的框架，以实现一致和真实的评估。它包括五个广泛使用的公共数据集和一个新收集的ClueWeb-Reco数据集，后者基于真实的用户浏览历史。ClueWeb-Reco是一个合成的数据集，由真实的、用户同意的、隐私得到保证的浏览数据衍生而来，与现代社会推荐场景相一致，作为排行榜的隐藏测试部分，以挑战推荐模型泛化能力。

ORBIT is a unified benchmark designed to provide a standardized framework for recommender system evaluation, enabling consistent and realistic assessment. It comprises five widely used public datasets and a newly collected ClueWeb-Reco dataset, which is based on real user browsing history. ClueWeb-Reco is a synthetic dataset derived from real, user-consented, privacy-protected browsing data, aligned with modern real-world recommendation scenarios, and serves as the hidden test partition of the leaderboard to challenge the generalization capability of recommender models.

提供机构：

卡内基梅隆大学语言技术研究所

创建时间：

2025-10-30

搜集汇总

数据集介绍

构建方式

在推荐系统研究领域，构建高质量数据集是推动算法发展的关键环节。ORBIT数据集采用双轨制构建策略，一方面整合了MovieLens-1M和Amazon Reviews等五个公开数据集，通过标准化的留一法数据分割确保实验可复现性；另一方面创新性地构建了ClueWeb-Reco隐藏测试集，该数据集通过亚马逊众包平台收集真实用户浏览历史，并采用语义软匹配技术将原始URL映射至ClueWeb22公开语料库，在保留用户行为模式的同时严格保障隐私安全。这种构建方式既维持了数据真实性，又通过合成处理规避了个人信息泄露风险。

使用方法

研究者在应用该数据集时需遵循标准化评估流程。对于公开基准部分，应采用留一法分割策略，将用户序列的前n-2项作为训练集，第n-1项作为验证目标，第n项作为测试目标，使用Recall@K和NDCG@K等指标进行全项目池排序评估。针对ClueWeb-Reco隐藏测试，需通过官方平台提交预测结果参与排行榜竞逐，该部分特别适合验证模型在未知项目上的泛化性能。数据集还支持创新性的大语言模型应用探索，研究者可通过提示工程将推荐任务转化为检索任务，利用生成的查询在ClueWeb语料库中进行语义匹配。

背景与挑战

背景概述

推荐系统作为人工智能领域的关键应用，深刻影响着数十亿用户的日常信息获取与消费决策。然而，现有研究常受限于数据集真实性不足与评估标准不统一的问题。2025年，卡内基梅隆大学与Meta的研究团队联合推出了ORBIT基准数据集，旨在构建可复现研究的开放推荐系统评测框架。该数据集通过整合五个公共数据集并引入基于真实浏览行为的ClueWeb-Reco隐藏测试集，解决了传统数据集中用户行为模拟失真与隐私泄露风险的核心矛盾，为推荐系统研究提供了更接近实际场景的评估标准。

当前挑战

ORBIT数据集面临的挑战主要体现在两个方面：在领域问题层面，需解决传统推荐模型对大规模网页候选集泛化能力不足的难题，尤其当面对ClueWeb-Reco中8700万候选项目时，模型需突破语义理解与长尾分布的瓶颈；在构建过程中，团队通过语义软匹配技术将真实浏览记录映射至公开网页语料，既要保持用户行为模式的真实性，又需彻底消除个人身份信息，这种平衡对数据采集协议设计、质量控制和隐私保护机制提出了极高要求。

常用场景

经典使用场景

在推荐系统研究领域，ORBIT数据集通过整合五个公开数据集与创新的ClueWeb-Reco隐藏测试集，为序列推荐任务提供了标准化评估框架。该数据集将用户行为建模为时序交互序列，要求模型基于历史浏览记录预测下一个可能交互的网页或商品，特别适用于评估模型在真实网页推荐场景中的泛化能力。其精心设计的留一法数据分割和统一的评估指标，确保了不同推荐算法在相同条件下进行公平比较。

解决学术问题

ORBIT数据集有效解决了推荐系统研究中长期存在的评估不一致性问题。传统数据集往往依赖稀疏的用户评论数据，难以反映真实浏览行为，且不同研究采用的数据分割和评估指标存在显著差异，导致结果难以复现和比较。ORBIT通过标准化五个公开数据集的评估流程，并引入基于真实浏览行为的ClueWeb-Reco隐藏测试集，为模型性能评估提供了更可靠的基准。该数据集特别关注模型在大规模候选池和冷启动场景下的表现，推动了推荐算法在真实环境中的实用性研究。

实际应用

ORBIT数据集的实际价值体现在其对现代网页推荐场景的高度还原。ClueWeb-Reco测试集基于真实用户浏览序列构建，通过语义软匹配技术将原始数据映射到公开网页语料库，既保护用户隐私又保留行为模式。这种设计使得该数据集能够直接应用于浏览器内容推荐、电子商务平台个性化展示等实际场景。其大规模候选池和高度稀疏的特性，精准模拟了现实推荐系统面临的挑战，为工业界优化推荐算法提供了可靠的测试环境。

数据集最近研究