FORGE
收藏github2025-09-26 更新2025-09-27 收录
下载链接:
https://github.com/selous123/al_sid
下载链接
链接失效反馈官方服务:
资源简介:
FORGE是一个用于生成检索中形成语义标识符的综合基准,包含从电商平台收集的140亿用户交互和2.5亿商品的多模态特征,使研究人员能够构建和评估自己的语义标识符。
FORGE is a comprehensive benchmark for generating semantic identifiers for retrieval tasks. It encompasses multimodal features of 1.4 billion user interactions and 250 million products collected from e-commerce platforms, enabling researchers to construct and evaluate their own semantic identifiers.
创建时间:
2025-09-17
原始信息汇总
FORGE 数据集概述
数据集简介
FORGE(FOrming semantic identifieR for Generative rEtrieval)是一个面向工业数据集的生成式检索语义标识符构建基准。该数据集包含从电子商务平台收集的140亿用户交互数据和2.5亿项目的多模态特征,支持研究人员构建和评估自定义语义标识符。
数据集规模
- 用户交互数据:140亿条
- 项目数量:2.5亿个
- 多模态特征:包含丰富的多模态信息
数据集组成
1. 语义标识符生成任务数据
-
对比学习任务数据(10m_80msideinfo_feat.npz)
- 项目ID与索引映射表:6,844,930条记录,每行包含[item_id, index]对
- 项目对关系数据:9,509,084对,表示项目间的共现或关联关系
- 项目嵌入矩阵:6,844,930个项目的512维向量表示
-
重构任务数据(5mold_80msideinfo_feat.npz)
- 项目ID列表:4,148,316个项目ID
- 项目嵌入矩阵:4,148,316个项目的512维向量表示
2. 生成式检索序列数据
- 数据集名称:AL-GR-Tiny
- 数据格式:序列数据,可通过Hugging Face datasets库加载
- 访问地址:https://huggingface.co/datasets/AL-GR/AL-GR-Tiny
实验效果
- 在线实验显示PVR提升8.93%
- 交易数量提升0.35%
- 提出两个与生成式检索性能相关性良好的语义标识符新指标
数据获取方式
-
对比学习任务数据下载地址:
- https://mvap-public-data.oss-cn-zhangjiakou.aliyuncs.com/yingwu_data/ICLR_2026_data/reconstruct_data_mask.npz
- https://mvap-public-data.oss-cn-zhangjiakou.aliyuncs.com/yingwu_data/ICLR_2026_data/contrastive_data_mask.npz
-
生成式检索数据加载代码: python from datasets import load_dataset dataset = load_dataset("AL-GR/AL-GR-Tiny", data_files="train_data/s1_tiny.csv", split="train")
相关资源
- 完整数据集访问:https://huggingface.co/datasets/AL-GR
- 代码仓库:https://github.com/selous123/al_sid
- 论文地址:https://arxiv.org/abs/2509.20904
搜集汇总
数据集介绍

构建方式
在电子商务领域的语义标识符研究中,FORGE数据集通过整合来自工业级平台的用户交互数据与多模态特征构建而成。该数据集汇集了140亿条用户交互记录以及2.5亿商品的多样化特征,采用去重映射技术将商品ID与索引建立对应关系,并通过对比学习与重构任务分别生成协同出现商品对和嵌入向量矩阵。数据预处理阶段利用分布式计算框架对原始交互日志进行清洗和特征提取,最终形成结构化存储的NPZ格式文件与序列化数据集。
特点
FORGE数据集的核心价值体现在其工业级规模与多模态融合特性上。数据集不仅涵盖海量用户行为轨迹,还整合了商品视觉、文本等跨模态特征,为语义标识符研究提供真实场景下的多维信息支撑。其嵌入向量维度设计为512维,既能充分保留语义信息又兼顾计算效率。数据划分兼顾对比学习与生成式检索任务需求,通过精心设计的商品对采样策略确保语义关联性的有效捕捉。
使用方法
研究者可通过Hugging Face平台直接加载数据集的精简版本进行初步实验,完整数据需通过指定URL下载NPZ格式文件。使用流程包括数据加载、嵌入向量提取和语义标识符生成三个主要阶段。分布式训练时需配置多节点环境,通过修改配置文件参数适配不同硬件条件。评估阶段提供命中率计算脚本,支持基于解码器架构和自回归模型两种预测模式,用户可根据生成结果与商品语义标识符的匹配度进行效果验证。
背景与挑战
背景概述
生成式检索作为信息检索领域的前沿方向,近年来因语义标识符具备的语义区分能力而备受关注。FORGE数据集由阿里巴巴研究团队于2025年创建,旨在解决工业级场景下语义标识符构建与评估的空白。该数据集整合了电商平台中2.5亿商品的多模态特征及140亿用户交互行为,为生成式检索模型提供了大规模、高复杂度的实验环境。其核心研究问题聚焦于语义标识符的生成策略及其对检索性能的影响,通过系统化探索不同标识符配置方案,推动了生成式检索在工业应用中的可解释性与稳定性发展。
当前挑战
工业级生成式检索面临语义标识符设计缺乏理论指导的挑战,传统方法依赖随机定义标识符,难以平衡语义密度与检索效率。数据集构建过程中需处理多源异构数据的对齐问题,包括商品图像、文本描述与用户行为序列的融合。此外,超大规模数据带来的存储与计算瓶颈要求设计分布式处理架构,而用户交互数据的动态演化特性则增加了数据时效性维护的难度。生成式检索模型还需克服语义标识符与检索目标之间的耦合强度量化问题,以确保离线预训练结果能有效迁移至在线场景。
常用场景
经典使用场景
在生成式检索领域,FORGE数据集为语义标识符的构建与评估提供了标准化基准。该数据集整合了来自电商平台的140亿用户交互记录和2.5亿商品的多模态特征,研究人员可通过对比学习与重构任务训练模型生成具有语义区分度的标识符。典型应用包括基于序列数据的生成式检索模型训练,通过分布式计算框架实现大规模语义标识符的自动化生成与优化。
实际应用
该数据集在电商推荐系统中展现出重要应用价值,通过语义标识符优化实现了8.93%的页面价值率提升和0.35%的交易量增长。其多模态特征建模能力可支撑商品检索、用户行为预测等实际业务场景,分布式训练框架更适应工业级数据规模,为生成式检索技术的商业化落地提供了关键基础设施。
衍生相关工作
基于FORGE数据集衍生的研究推动了生成式检索技术的多维发展。相关工作包括基于残差量化自编码器的语义标识符生成架构、融合对比学习与重构任务的联合训练范式,以及适配工业场景的序列到序列检索模型。这些工作通过系统化实验验证了语义标识符配置与检索性能的关联规律,为后续研究提供了可扩展的技术路线。
以上内容由遇见数据集搜集并总结生成



