TRACE

github2026-01-30 更新2026-02-20 收录

下载链接：

https://github.com/alimama-tech/OnlineGMV

下载链接

链接失效反馈

官方服务：

资源简介：

TRACE是第一个用于后点击GMV预测的基准数据集，包含延迟反馈。数据集来自阿里巴巴的大规模工业数据，捕捉了包括点击、加购、支付和退款等多阶段用户行为，并带有精确的时间戳以建模延迟动态。数据包括用户/物品/上下文属性、点击时间戳、GMV序列、购买计数序列、购买时间戳序列、复购指标和最终真实GMV标签。

TRACE is the first benchmark dataset for post-click GMV prediction with delayed feedback. It is sourced from large-scale industrial data collected by Alibaba, capturing multi-stage user behaviors including clicks, add-to-cart actions, payments, and refunds, and is equipped with precise timestamps to model delayed dynamics. The dataset contains user/item/contextual attributes, click timestamps, GMV sequences, purchase count sequences, purchase timestamp sequences, repurchase indicators, and final ground-truth GMV labels.

创建时间：

2026-01-26

原始信息汇总

数据集概述

数据集名称

TRACE

数据集来源

阿里巴巴大规模工业数据集。

数据集简介

该数据集是首个用于处理延迟反馈的点击后成交总额预测的基准数据集，旨在捕捉多阶段的用户行为序列，包括点击、加购、支付和退款，并包含精确的时间戳以建模延迟动态。

核心数据内容

特征

用户/商品/上下文属性：提供22个此类属性（例如 feature_0 至 feature_21）。
点击时间戳：click_time。

标签与序列信息

成交总额序列：与一次点击相关的所有购买交易金额序列。当前购买金额由 dirpay_amt 表示，先前购买金额由 prev_dirpay_amt 表示。
购买次数序列：表示在给定点击的归因窗口内每次购买顺序的序列。count 表示当前购买的顺序，total_counts 表示最终的购买总次数。
购买时间戳序列：每次购买的时间戳序列。pay_time 通常表示当前购买的时间戳，prev_pay_time 包含先前购买的时间戳。
复购指示器：一个二元标签（0或1），表示点击产生的成交总额是来自单次购买（0）还是复购（1）。该标签由购买次数推导得出，字段为 multi_tag。
最终真实成交总额标签：在归因窗口结束时累计的总成交总额。该值计算为所有 dirpay_amt 的总和。

数据获取与预处理

获取地址：数据集发布于 HuggingFace：https://huggingface.co/datasets/alimamaTech/TRACE。
数据格式：为便于复现和快速实验，训练数据已预处理并保存为 .pkl 格式文件。
存放位置：下载的数据文件应置于项目的 data/ 目录下。

搜集汇总

数据集介绍

构建方式

TRACE数据集的构建依托于阿里巴巴的大规模工业数据，精准捕捉了用户在点击后的多阶段行为序列，包括加购、支付与退款等关键节点，并记录了精确的时间戳以刻画延迟反馈的动态过程。该数据集通过结构化处理，将用户、商品及上下文属性等22维特征与交易金额序列、购买次数序列及购买时间序列进行对齐，同时引入复购标签与最终总交易额作为监督信号，为后续建模提供了丰富而可靠的数据基础。

特点

TRACE数据集在电子商务预测领域展现出鲜明的特色，其核心在于首次针对点击后总交易额预测任务中的延迟反馈问题提供了系统化基准。该数据集不仅涵盖多维静态特征，更通过序列化设计完整保留了多次购买行为的时间演进路径，从而能够细致刻画用户从点击到最终消费的复杂决策过程。此外，数据集中明确的复购标识与累积交易额标签，为模型区分单次与多次购买场景、准确估计长期价值提供了关键依据。

使用方法

使用TRACE数据集时，研究者可从HuggingFace平台获取原始数据，并借助项目代码库中提供的预处理脚本转换为高效的序列化格式。实验流程支持从零开始训练或加载预训练权重两种模式：预训练阶段利用历史完整标签数据初始化模型组件，在线训练阶段则基于流式数据与延迟反馈进行微调。通过配置相应的命令行参数，可灵活调整训练时间窗口、学习率及损失权重，以适配不同的研究目标与评估需求。

背景与挑战

背景概述

在电子商务与在线广告领域，精准预测用户点击后的总商品交易额（GMV）对于优化营销策略和提升平台收益至关重要。然而，由于用户行为存在延迟反馈，即点击后可能经过较长时间才完成购买或复购，传统预测模型往往难以准确捕捉此类动态。为此，阿里巴巴的研究团队于2026年WWW会议上发布了TRACE数据集，这是首个专门针对延迟反馈下GMV预测的基准数据集。该数据集源自阿里巴巴的大规模工业数据，详细记录了用户从点击、加购到支付及退款的多阶段行为序列，并包含精确的时间戳，为建模延迟动态提供了丰富的数据支持。TRACE的推出不仅填补了该领域基准数据的空白，也为后续研究提供了可靠的实验基础，推动了延迟反馈建模技术的发展。

当前挑战

TRACE数据集旨在解决延迟反馈环境下的GMV预测问题，其核心挑战在于如何有效建模用户行为的时序依赖与延迟模式。具体而言，由于用户点击后可能发生多次购买行为，且每次购买的时间间隔不确定，模型需从稀疏且非均匀的序列数据中学习GMV的累积过程。此外，数据中存在的复购行为进一步增加了预测复杂性，要求模型能够区分单次与多次交易模式。在数据集构建过程中，研究人员面临如何准确对齐多源行为日志、处理大规模时序数据的存储与计算效率，以及定义合理的归因窗口以平衡数据完整性与实时性需求等挑战。这些技术难点使得TRACE成为评估GMV预测方法鲁棒性与准确性的重要基准。

常用场景

经典使用场景

在电子商务与推荐系统领域，TRACE数据集为研究点击后用户行为的延迟反馈建模提供了关键支持。该数据集通过捕捉用户从点击到购买、退款的全链路行为序列，并记录精确的时间戳，使得研究者能够深入分析延迟交易对总商品交易额预测的影响。经典应用场景包括构建多阶段行为预测模型，以模拟真实商业环境中用户决策的时延特性，从而优化广告投放和商品推荐的即时性与准确性。

衍生相关工作

围绕TRACE数据集，已衍生出多项经典研究工作，其中最具代表性的是与其配套提出的READER预测范式。该范式专为处理延迟反馈和部分标签的挑战而设计，通过预训练和在线学习两阶段框架，显著提升了GMV预测的准确性。此外，基于TRACE的基准测试还催生了多种改进模型，如结合序列神经网络和时态校准的方法，进一步推动了延迟反馈建模在学术与工业界的融合与发展。

数据集最近研究