RecIF-Bench

arXiv2025-12-31 更新2026-01-05 收录

下载链接：

https://huggingface.co/OpenOneRec

下载链接

链接失效反馈

官方服务：

资源简介：

RecIF-Bench是由快手团队构建的多领域推荐基准数据集，涵盖短视频、广告和电商三大工业场景，包含1.2亿条交互数据和20万用户行为记录。数据集通过分层量化技术将物品语义编码为离散令牌，支持生成式推荐模型的端到端训练。其创新性在于整合了用户画像、多模态元数据和细粒度交互信号，为评估推荐系统的指令遵循、复杂推理等综合能力提供了标准化测试平台。该数据集旨在推动推荐系统从专业工具向通用智能的范式跃迁。

RecIF-Bench is a multi-domain recommendation benchmark dataset constructed by the Kuaishou team. It covers three major industrial scenarios: short video, advertising, and e-commerce, and contains 120 million interaction records and 200,000 user behavior logs. The dataset encodes item semantics into discrete tokens via hierarchical quantization techniques, enabling end-to-end training of generative recommendation models. Its core innovation lies in integrating user profiles, multimodal metadata and fine-grained interaction signals, providing a standardized testbed for evaluating the comprehensive capabilities of recommendation systems such as instruction following and complex reasoning. This dataset aims to drive the paradigm shift of recommendation systems from professional tools toward general intelligence.

提供机构：

快手

创建时间：

2025-12-31

搜集汇总

数据集介绍

构建方式

在生成式推荐系统向通用智能演进的关键阶段，RecIF-Bench的构建遵循了严谨的多维度整合原则。该数据集聚合了来自短视频、广告和电商三大工业领域的约1.2亿次用户交互，覆盖超过20万独立用户。其核心构建逻辑在于通过严格的用户级划分策略，将20%的用户及其完整交互序列作为独立测试集，确保评估过程无数据泄漏。每个用户的交互序列依据时间戳进行划分，历史交互构成上下文，后续行为则作为预测目标，以此模拟真实的动态推荐场景。数据集不仅提供了原始交互日志，更深度融合了用户画像、物品多模态嵌入及细粒度行为信号等多源元数据，并通过层次化量化技术将物品语义压缩为离散的Itemic令牌序列，从而为生成式推荐模型提供了可直接处理的结构化输入。

特点

RecIF-Bench的显著特征在于其设计的系统性与评估的全面性。作为首个面向推荐指令跟随能力的综合性评测基准，它突破了传统基准局限于单一领域排序准确率的局限，构建了一个涵盖四大能力层级、八项差异化任务的评估体系。从底层的语义对齐，到基础推荐预测，再到复杂的指令跟随与推理生成，该基准系统地刻画了模型从模式匹配到认知理解的演进路径。其数据构成兼具广度与深度，不仅横跨多个异质领域以捕捉多样化的用户行为模式，更提供了交织文本与令牌的混合数据格式，以检验模型处理多模态信息的能力。尤为重要的是，基准引入了基于LLM的生成质量评估机制，为推荐解释等开放式任务提供了可靠的量化依据，从而为下一代推荐基础模型的全面发展设立了清晰的衡量标尺。

使用方法

RecIF-Bench为推荐系统的研究与评估提供了标准化的操作框架。研究者首先需将模型适配至该基准统一的序列到序列生成范式，其中输入为特定任务指令与用户上下文的组合，输出则为目标物品令牌序列或自然语言响应。对于推荐类任务，评估主要依据Pass@K与Recall@K等排序指标，以衡量模型在候选生成中的准确性；而对于文本生成类任务，则需借助独立的LLM作为评判者，从准确性、连贯性等维度对生成内容进行评分。基准鼓励采用其提供的预计算Itemic令牌以提升效率，同时也支持研究者利用原始多模态嵌入训练自定义分词器，或直接使用传统物品ID，确保了方法论的灵活性。通过在此基准上的系统评测，研究者能够精准定位模型在推荐能力光谱上的位置，并洞察其从专用系统迈向通用智能代理的潜在路径。

背景与挑战

背景概述

在生成式推荐系统快速演进的背景下，快手OneRec团队于2025年推出了RecIF-Bench数据集。该数据集旨在弥合传统推荐系统与通用大语言模型之间的能力鸿沟，通过构建一个覆盖多领域、多任务的综合性评测基准，推动推荐基础模型的发展。RecIF-Bench整合了来自短视频、广告和电商三大工业领域的约1.2亿次用户交互数据，并设计了从基础预测到复杂推理的八层任务体系，为评估模型在指令跟随、跨域迁移和可解释性等方面的综合能力提供了标准化测试平台。这一工作标志着推荐系统从专业工具向通用智能体演进的重要尝试，为构建真正智能的推荐系统奠定了数据与评测基础。

当前挑战

RecIF-Bench致力于解决生成式推荐领域的两大核心挑战：一是传统推荐模型在指令跟随、复杂推理及跨域泛化方面的能力局限，二是缺乏能够系统评估这些综合能力的基准测试。在构建过程中，研究团队面临多重技术难题：首先，如何将离散的商品标识符与连续的语言空间对齐，以克服模态鸿沟并实现高效的长上下文建模；其次，如何在注入领域知识的同时，避免模型出现灾难性遗忘，保持其原有的通用推理与指令跟随能力；最后，如何设计兼顾推荐准确性、语义对齐与推理深度的多层次评估体系，确保基准能够全面反映模型在真实场景中的综合表现。

常用场景

经典使用场景

在生成式推荐系统研究领域，RecIF-Bench作为首个全面评估推荐指令跟随能力的基准，其经典使用场景聚焦于衡量模型从基础预测到复杂推理的多维度性能。该基准覆盖了短视频、广告和电商三大异构工业领域，通过精心设计的八项任务，系统化地检验模型在语义对齐、基础推荐、指令跟随及推理解释等层级的能力。研究者可借助RecIF-Bench对生成式推荐模型进行标准化评估，特别是在跨域兴趣迁移、用户画像理解以及自然语言指令交互等前沿方向上，该基准提供了统一的测试框架，有效推动了推荐系统与通用智能的融合探索。

实际应用

在实际应用层面，RecIF-Bench所支撑的模型能力可直接赋能工业级推荐系统的智能化升级。基于其训练和评估的OneRec-Foundation模型系列，在短视频内容分发、广告精准投放和电商商品推荐等场景中展现出卓越的跨域迁移性和用户意图理解能力。例如，在快手平台的短视频推荐中，模型能够融合用户的历史观看、搜索记录及画像信息，响应自然语言查询并生成可解释的推荐理由；在亚马逊商品推荐基准上，该模型实现了显著的性能提升，验证了其在实际业务中处理稀疏数据、实现个性化推荐的强大泛化能力，为构建真正理解用户、具备推理能力的下一代推荐系统提供了技术路径。

衍生相关工作

RecIF-Bench的发布催生并衔接了一系列围绕生成式推荐的基础性研究工作。其核心框架继承了OneRec系列在统一生成式推荐管道上的探索，并进一步与LC-Rec、OneRec-Think等项目在语义对齐和推理增强方面形成对话。该基准启发了对推荐领域可扩展性规律的实证研究，验证了数据密集型缩放策略的有效性。同时，其开源的训练管道和模型家族为后续研究提供了可复现的基线，促进了诸如自适应预训练知识利用、多领域联合训练、以及基于强化学习的推荐优化等方向的深入探索。这些衍生工作共同推动了推荐系统与大型语言模型技术的深度融合，为领域发展奠定了坚实的算法与评估基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集