five

FORGE

收藏
arXiv2025-09-26 更新2025-09-27 收录
下载链接:
https://arxiv.org/abs/2509.20904
下载链接
链接失效反馈
官方服务:
资源简介:
FORGE是一个为生成式检索构建语义标识符的综合基准,使用来自中国最大的电子商务平台淘宝的用户行为和物品的多模态特征。该数据集包含14亿用户交互和多模态特征的2.5亿物品,用于探索和验证生成式检索中语义标识符的构建优化策略。FORGE旨在解决当前研究在生成式检索中面临的三个主要挑战:缺乏具有多模态特征的大规模公开数据集、对SID生成优化策略的有限调查,以及工业部署中的在线收敛速度慢。FORGE为研究人员提供了一个包含大量用户交互和多模态物品特征的数据集,以及用于评估SID质量的新指标,并引入了一种离线预训练模式,以加速新SID在生产中的收敛。

FORGE is a comprehensive benchmark for building semantic identifiers (SID) for generative retrieval, which leverages multimodal features of user behaviors and items from Taobao, the largest e-commerce platform in China. This dataset encompasses 250 million items with multimodal features and 1.4 billion user interaction records, which is utilized to explore and validate optimization strategies for SID construction in generative retrieval. FORGE aims to address three core challenges in current generative retrieval research: the absence of large-scale public datasets with multimodal features, limited investigations into optimization strategies for SID generation, and slow online convergence during industrial deployment. FORGE provides researchers with a dataset containing abundant user interaction records and multimodal item features, alongside novel metrics for evaluating SID quality, and introduces an offline pre-training paradigm to accelerate the convergence of new SIDs in production environments.
提供机构:
浙江大学, 阿里巴巴集团
创建时间:
2025-09-25
原始信息汇总

FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets

基本信息

  • 标题: FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets
  • arXiv ID: 2509.20904
  • 学科类别: Computer Science > Information Retrieval (cs.IR)
  • 提交日期: 2025年9月25日
  • 版本: v1
  • 作者: Kairui Fu, Tao Zhang, Shuwen Xiao, Ziyang Wang, Xinming Zhang, Chenchi Zhang, Yuliang Yan, Junjun Zheng, Yu Li, Zhihong Chen, Jian Wu, Xiangheng Kong, Shengyu Zhang, Kun Kuang, Yuning Jiang, Bo Zheng

摘要

语义标识符(SIDs)因其有意义的语义可区分性在生成式检索(GR)中受到越来越多的关注。然而,当前的SIDs研究面临三个主要挑战:

  1. 缺乏具有多模态特征的大规模公共数据集。
  2. 对SID生成优化策略的研究有限,这些策略通常依赖于昂贵的GR训练进行评估。
  3. 在工业部署中在线收敛速度慢。

为解决这些挑战,提出了FORGE,一个用于在工业数据集的生成式检索中形成语义标识符的综合基准。

数据集与基准详情

  • 数据集来源: 从中国最大的电子商务平台之一淘宝采样。
  • 数据集规模: 包含140亿用户交互和2.5亿项目的多模态特征。
  • 基准目标: 探索多种优化以增强SID构建,并通过不同设置和任务的离线实验验证其有效性。
  • 在线分析结果: 在日服务超过3亿用户的平台上进行在线分析,显示交易数量增加了0.35%。

方法论与贡献

  • 新评估指标: 提出了两个与推荐性能正相关的SID新指标,无需任何GR训练即可进行便捷评估。
  • 实际应用优化: 引入了一种离线预训练方案,将在线收敛时间减少了一半。
  • 资源可用性: 代码和数据可在 https://doi.org/10.48550/arXiv.2509.20904 获取。
搜集汇总
数据集介绍
main_image_url
构建方式
在电子商务推荐系统领域,构建高质量数据集对推动生成式检索技术至关重要。FORGE数据集通过从中国最大电商平台淘宝采集10天内超过140亿条用户交互行为及2.5亿商品的多模态特征,采用三阶段时序划分策略构建而成。其序列数据以页面视图为单位组织,每个序列包含最长100条历史交互行为,并针对推荐和搜索任务分别设计数据结构。商品信息层面对每个商品标识符融合文本、图像等多模态嵌入,并引入协同关系最强的关联商品数据,为语义标识符生成提供丰富输入。
特点
FORGE数据集在规模与多模态丰富度方面具有显著优势,其交互数据量达到现有最大推荐数据集的100倍,覆盖1.31亿用户和2.51亿商品。该数据集创新性地提供了预生成的层次化语义标识符,支持三级编码结构(如3×8192),每个标识符由多级码词构成,能指数级扩展商品表示空间。多模态特征涵盖商品文本描述、图像视觉特征及协同关系嵌入,并通过命名实体识别提取关键词以保护隐私。时序连续性设计将数据划分为三个连续训练阶段,支持模型稳健性验证与动态环境适应性评估。
使用方法
研究者可利用该数据集开展多维度实验:通过编码-量化框架自定义语义标识符生成,采用残差量化向量自编码器将多模态特征离散化为层级码词;使用嵌入命中率和基尼系数直接评估标识符质量,无需训练生成式检索模型;也可直接使用预生成标识符训练下游推荐或搜索模型。针对工业部署场景,数据集支持离线预训练策略验证,通过拼接历史用户行为序列进行自回归预训练,可加速在线收敛过程。实验表明该使用方法能使模型在10天内实现交易量0.35%的提升。
背景与挑战
背景概述
FORGE数据集作为生成式检索领域的重要工业级基准,由阿里巴巴集团与浙江大学于2025年联合推出,旨在解决语义标识符在推荐系统中的构建与应用问题。该数据集基于中国最大电商平台淘宝的真实用户行为,涵盖超过140亿条交互记录和2.5亿商品的多模态特征,其时间连续性设计将数据划分为三个连续阶段,支持持续训练与鲁棒评估。FORGE的诞生填补了现有公开数据规模有限、多模态特征匮乏的空白,为语义标识符的生成机制研究提供了前所未有的实验平台,对推动工业级推荐系统的技术演进具有里程碑意义。
当前挑战
FORGE面临的挑战主要体现在领域问题与构建过程两个维度。在领域层面,语义标识符需解决生成式检索中标识符语义判别性不足的问题,同时应对工业场景下亿级商品管理的可扩展性需求。构建过程中,数据集需克服多模态特征对齐的复杂性,包括文本、图像与协同关系的有效融合;此外,标识符碰撞现象导致多个相似商品映射至同一语义标识符,需通过KNN与随机分配等后处理策略优化分布公平性。数据隐私保护要求亦增加了特征嵌入处理的难度,需在信息保留与安全合规间取得平衡。
常用场景
经典使用场景
在生成式检索研究领域,FORGE数据集为语义标识符的构建与优化提供了工业级验证平台。该数据集通过整合淘宝平台14亿用户交互行为和2.5亿商品的多模态特征,构建了层次化语义标识符生成框架。研究者可利用其连续十天的时序行为数据,在推荐和搜索双场景下评估语义标识符的生成质量,特别是通过残差量化编码器将商品的多模态特征转化为离散码本序列,为生成式检索模型提供结构化输入。这种设计使得FORGE成为验证语义标识符在动态电商环境中适应性的基准测试床。
实际应用
在淘宝猜你喜欢等实际推荐场景中,FORGE验证的语义标识符优化方案展现出显著应用价值。通过融合商品图像、文本描述及协同关系等多模态信息构建的语义标识符,在在线实验中带来0.35%的交易量提升。其动态波束搜索机制适应了电商平台亿级并发用户的实时推理需求,而离线预训练方案将新标识符的在线收敛时间缩短50%。这些技术已部署于服务3亿日活用户的生产环境,证明了语义标识符在提升推荐相关性、加速模型迭代方面的实用效能。
衍生相关工作
FORGE催生了多项语义标识符优化的延伸研究。其提出的多模态特征融合框架启发了后续工作对跨模态对齐机制的深入探索,如基于对比学习的商品协同关系建模;层次化码本设计思想被拓展至变长语义标识符生成任务,衍生出动态层级编码架构;离线预训练与在线微调相结合的部署范式,为后续研究如OneRec、RPG等系统提供了工程实践参考。这些工作共同构建了基于语义标识符的生成式检索技术体系,推动该方向从算法创新走向系统级优化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作