RecIF-Bench

github2026-01-01 更新2026-01-05 收录

下载链接：

https://github.com/Kuaishou-OneRec/OpenOneRec

下载链接

链接失效反馈

官方服务：

资源简介：

RecIF-Bench是第一个全面的推荐指令跟随基准，包含来自20万用户在多个异构领域（短视频、广告、产品）的1亿次交互数据。该基准将8个不同的任务组织成一个四层能力层次，用于严格评估指令跟随和领域特定推荐之间的协同作用。

RecIF-Bench is the first comprehensive recommendation instruction-following benchmark, which contains 100 million interaction records from 200,000 users across multiple heterogeneous domains including short videos, advertisements, and products. This benchmark organizes eight distinct tasks into a four-layer capability hierarchy to rigorously evaluate the synergies between instruction following and domain-specific recommendation.

创建时间：

2025-12-29

原始信息汇总

OpenOneRec 数据集概述

数据集基本信息

数据集名称: OpenOneRec
核心组成部分: 包含一个名为 RecIF-Bench 的推荐指令遵循基准数据集，以及一系列名为 OneRec-Foundation 的基础模型。
核心目标: 旨在弥合传统推荐系统与大型语言模型（LLMs）之间的差距，加速生成式推荐研究。

RecIF-Bench 基准数据集详情

数据规模: 包含来自20万用户的 1亿次交互。
数据领域: 聚合了三个异构领域的数据：短视频（内容）、广告（商业） 和 产品（电子商务）。
任务设计: 包含8个不同的任务，组织为一个四层能力层次结构：
1. 层0：语义对齐（项目理解）
2. 层1：基础预测（短视频推荐、广告推荐、产品推荐、标签预测）
3. 层2：指令遵循（交互式推荐、标签条件推荐）
4. 层3：推理（推荐解释）

OneRec-Foundation 模型系列

模型基础: 基于 Qwen3 架构构建，并引入了 Itemic Tokens 用于模态对齐。
模型版本:
- 标准版: 在开源数据（约330亿令牌）上训练。
  - OneRec-1.7B (https://huggingface.co/OpenOneRec/OneRec-1.7B)
  - OneRec-8B (https://huggingface.co/OpenOneRec/OneRec-8B)
- 专业版 (Pro): 在标准版基础上，额外使用了来自快手的千亿令牌工业语料库进行增强（总计约1300亿令牌）。
  - OneRec-1.7B-Pro (https://huggingface.co/OpenOneRec/OneRec-1.7B-pro)
  - OneRec-8B-Pro (https://huggingface.co/OpenOneRec/OneRec-8B-pro)

性能表现

RecIF-Bench 基准测试结果

OneRec-Foundation 模型在 RecIF-Bench 的各项任务上取得了 最先进（SOTA） 的结果，显著优于 SASRec、TIGER、LC-Rec 等基线模型。其中 OneRec-8B-Pro 模型在大多数任务上表现最佳。

跨领域可迁移性

在 Amazon Benchmark（包含10个数据集）上，OpenOneRec 展示了卓越的零样本/少样本迁移能力，在 Recall@10 指标上平均比第二名方法提升了 26.8%。

方法架构与训练流程

核心方法: 将推荐重新定义为通用的序列建模范式，使用 Itemic Tokens 将物品视为一种独立的模态。
训练流程:
1. 预训练: 通过 Itemic-Text 对齐和全参数协同预训练整合协同信号。
2. 后训练:
  - 阶段1：多任务监督微调，用于基础指令遵循。
  - 阶段2：策略蒸馏，以恢复通用推理性能。
  - 阶段3：强化学习，以增强推荐能力。

许可证

代码库遵循 Apache 2.0 许可证。
模型权重遵循其特定的许可证协议。

搜集汇总

数据集介绍

构建方式

在生成式推荐系统快速演进的背景下，RecIF-Bench作为首个全面的推荐指令遵循基准，其构建过程体现了严谨的学术设计。该数据集整合了来自短视频、广告和商品三个异构领域的真实交互数据，总计涵盖一亿次用户行为与二十万用户样本。构建者采用分层能力框架，将评估任务系统性地组织为语义对齐、基础预测、指令遵循及推理四个层级，从而确保对模型能力的多维度、结构化评测。数据采集与清洗过程注重领域代表性与数据质量，为后续模型训练与评估提供了坚实可靠的基础。

使用方法

研究人员可利用RecIF-Bench对生成式推荐模型进行系统性评估与能力剖析。数据集通常与配套的评估脚本一同发布，支持对八个核心任务的自动化评测，涵盖召回率、AUC及基于大语言模型的评分等多种指标。使用流程包括加载标准化的数据分割、运行预定义的评估函数以获取模型在各层级任务上的性能表现，并进行跨领域的零样本或小样本迁移能力测试。该基准旨在促进模型间的公平比较，助力研究者深入分析模型优势与短板，从而推动生成式推荐技术在指令遵循与复杂推理方向上的持续进步。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域取得突破性进展，其强大的生成与推理能力为传统推荐系统范式带来了革新机遇。生成式推荐旨在弥合两者间的鸿沟，然而现有研究常受限于孤立的数据孤岛与模型推理能力的匮乏。在此背景下，快手团队于2025年提出了OpenOneRec开源框架，其核心组件RecIF-Bench作为首个全面的推荐指令遵循基准应运而生。该数据集整合了来自短视频、广告和商品三大异构领域的海量交互数据，旨在系统评估模型在语义对齐、基础预测、指令遵循及复杂推理等多层次任务上的协同能力，为构建统一、可解释的生成式推荐系统奠定了坚实的数据基础。

当前挑战

RecIF-Bench致力于解决的领域核心挑战在于如何系统评估生成式推荐模型的多维能力。传统推荐基准多聚焦于单一预测精度，而生成式推荐要求模型同时具备精准的项目理解、跨域迁移、复杂指令遵循以及可解释的推理能力。这构成了一个涵盖从感知到认知的层次化评估难题。在数据集构建过程中，挑战同样显著：需从异构且规模庞大的原始交互数据中，清洗并结构化出涵盖三大领域、总计一亿条交互的标准化指令数据；同时，设计并标注用于评估高级推理能力的解释性任务，确保评估体系既全面又具备良好的可复现性，这对数据工程的规模与质量提出了极高要求。

常用场景

经典使用场景

在生成式推荐系统研究领域，RecIF-Bench作为首个全面的推荐指令遵循基准，其经典使用场景在于系统评估大语言模型在跨域推荐任务中的综合能力。该基准整合了短视频、广告和商品三大领域的交互数据，通过分层任务架构，从语义对齐、基础预测到指令遵循与推理，为模型提供了多维度的性能验证平台。研究者可借助该数据集，深入探究模型在复杂用户指令下的响应质量与推荐准确性，从而推动生成式推荐技术的标准化评测进程。

解决学术问题

RecIF-Bench的构建有效解决了生成式推荐研究中长期存在的评测碎片化问题。传统推荐系统往往局限于单一领域或任务，缺乏对模型指令理解与跨域泛化能力的统一评估。该数据集通过引入层次化能力框架，将项目理解、标签预测、交互式推荐及解释生成等任务有机整合，为学术界提供了衡量模型语义对齐与推理深度的标尺。其意义在于确立了生成式推荐的多维能力评估体系，促进了推荐系统与自然语言处理技术的深度融合，为后续研究奠定了坚实的基准基础。

实际应用

在实际应用层面，RecIF-Bench为工业级推荐系统的开发与优化提供了关键支撑。其涵盖的短视频、广告与电商场景，恰好对应了当前数字内容平台的核心业务需求。企业可利用该数据集训练模型，实现更精准的用户兴趣捕捉与跨域推荐迁移，例如在短视频平台中嵌入商品导购，或在广告系统中融合内容理解。数据集中的指令遵循任务更能模拟真实交互场景，使推荐系统能够响应用户的复杂查询，如“推荐适合周末观看的科普短片”，从而提升用户体验与平台粘性。

数据集最近研究