five

Multi-Attribution BenChmark (MAC)

收藏
arXiv2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/alimamaTech/MAC
下载链接
链接失效反馈
官方服务:
资源简介:
MAC是由阿里巴巴·淘宝天猫集团与南京大学联合构建的首个公开多归因转化率(CVR)预测基准数据集,旨在解决传统单归因标签的数据局限性。该数据集包含7900万条广告点击样本,涵盖用户行为序列、商品特征及四种归因机制(末次点击、首次点击、线性分配和数据驱动归因)的连续权重标签,数据源自淘宝平台21天的脱敏流量日志。通过分层采样确保数据多样性,并采用哈希技术保护用户隐私。MAC为研究多视角归因学习提供了标准化测试环境,可应用于计算广告、推荐系统等领域,以提升转化路径分析和竞价模型性能。
提供机构:
南京大学; 阿里巴巴·淘宝天猫集团
创建时间:
2026-03-03
原始信息汇总

MAC数据集概述

数据集简介

MAC(Multi-Attribution BenChmark)是首个提供多归因机制标签的公开转化率(CVR)预测数据集。该数据集旨在解决现有公开CVR数据集(如Criteo和Ali-CCP)仅提供单一归因机制转换标签的局限性,从而支持更全面的建模范式研究。

核心特点

  • 多归因机制标签:数据集包含来自多种归因机制的转换标签。
  • 研究导向:专注于在线广告系统中的转化率预测问题,为多归因建模研究提供基准。

许可证信息

  • 许可证类型:Apache 2.0

背景与意义

转化率预测是在线广告系统的基石。现有公开CVR数据集因仅提供单一归因机制衍生的转换标签,严重限制了对更全面建模范式的研究。MAC数据集的引入旨在填补这一空白。

搜集汇总
数据集介绍
构建方式
在转化率预测领域,传统数据集通常依赖单一归因机制生成标签,这限制了多归因学习范式的发展。为填补这一数据空白,MAC数据集从阿里巴巴淘宝平台的广告系统真实日志中采集,覆盖了21天的连续流量。通过分层抽样策略,该数据集纳入了约0.8亿次点击、800万用户及960万独立商品,确保了数据规模与研究适用性。每个点击样本不仅包含用户、商品及上下文的多类特征,还首次提供了基于最后点击、首次点击、线性归因及数据驱动归因四种典型机制生成的连续归因权重标签,从而构建了一个支持多视角转化行为分析的基准测试平台。
特点
MAC数据集的核心特点在于其多归因标签的全面性,这为转化率预测研究提供了前所未有的多维监督信号。与现有公开数据集仅包含单一归因标签不同,MAC同时涵盖四种主流归因机制,使得模型能够从不同视角学习用户转化路径中的触点贡献。数据集经过严格的匿名化处理,移除了所有个人敏感信息,并提供了丰富的特征表示,包括用户行为序列及商品视觉相似度等多模态信息。此外,数据集中不同归因机制下的正样本比例存在显著差异,例如线性归因为5.3%,而最后点击仅为1.6%,这种差异反映了各机制对转化事件解释的多样性,为探索多归因学习的泛化性与鲁棒性奠定了坚实基础。
使用方法
MAC数据集的使用旨在系统评估多归因学习方法的性能,其应用框架遵循多任务学习范式。研究者需首先指定一个目标归因机制作为主任务,其余机制则作为辅助任务,通过联合优化主辅任务损失来训练预测模型。数据集中提供的连续归因权重可直接转化为加权的二元分类标签,并采用AUC与分组AUC作为核心评估指标,以衡量模型在不同用户群体中的排序能力。为促进可复现研究,配套的开源库PyMAL实现了从基础单归因模型到先进多任务架构的多种基线方法,支持研究者快速进行模型比较与消融实验。通过这种方式,MAC不仅能够验证多归因学习的普遍增益,还能深入探究辅助目标选择与模型结构设计对最终预测性能的影响。
背景与挑战
背景概述
在在线广告与推荐系统领域,转化率预测作为核心任务,其准确性直接影响广告竞价效率与平台收益。传统方法依赖单一归因机制生成标签,限制了模型对用户复杂转化路径的全面理解。为突破这一局限,南京大学与阿里巴巴淘宝天猫集团的研究团队于2024年共同构建了Multi-Attribution Benchmark(MAC),这是首个公开提供多归因标签的转化率预测数据集。MAC基于淘宝广告系统的真实日志,涵盖最后点击、首次点击、线性归因及数据驱动归因四种典型机制,旨在推动多归因学习这一新兴范式的发展,为学术界提供系统评估模型性能的基准。
当前挑战
MAC数据集致力于解决转化率预测中多归因学习的核心挑战:传统数据集仅提供单一归因标签,导致模型无法从多角度捕捉用户转化意图,限制了预测性能的提升。在构建过程中,研究团队面临多重技术难题:首先,需在保护用户隐私的前提下,从海量工业日志中提取并匿名化多维度归因权重;其次,不同归因机制下的标签存在显著分布差异与噪声,例如首次点击标签因时间跨度大而信噪比较低,增加了数据清洗与对齐的复杂度;最后,为确保数据集的学术可用性,需设计合理的采样策略与特征架构,平衡数据规模与计算成本,同时提供开放工具链以支持可复现研究。
常用场景
经典使用场景
在在线广告与推荐系统领域,转化率预测是核心任务之一,传统方法依赖于单一归因机制生成的标签,这限制了模型对用户复杂转化路径的全面理解。Multi-Attribution Benchmark (MAC) 作为首个公开提供多归因标签的数据集,其经典使用场景在于为多归因学习范式提供基准测试平台。研究人员可利用MAC评估模型在多种归因机制下的性能,例如同时基于末次点击、首次点击、线性归因和数据驱动归因的标签进行训练与验证,从而探索模型如何整合不同视角的转化信号以提升预测准确性。
解决学术问题
MAC数据集主要解决了转化率预测研究中因标签单一而导致的数据瓶颈问题。传统公开数据集仅提供单一归因标签,阻碍了多归因学习方法的开发与比较。MAC通过提供四种典型归因机制下的连续权重标签,使得学术界能够系统研究多任务学习架构在整合多归因知识时的有效性。该数据集帮助揭示了多归因学习在不同目标归因设置中的普遍增益,特别是对于转化路径较长的用户群体,并强调了辅助目标选择与模型结构设计的关键原则,推动了更全面、鲁棒的转化建模理论发展。
衍生相关工作
MAC数据集的发布催生了一系列围绕多归因学习的经典研究工作。基于该基准,研究者提出了如Mixture of Asymmetric Experts (MoAE) 等新颖模型,该模型结合了混合专家架构与主任务优先的知识转移机制,显著提升了多归因场景下的预测性能。此外,开源工具库PyMAL整合了从经典多任务模型到前沿NATAL方法等多种基线,为后续研究提供了可复现的算法框架。这些工作共同深化了对多归因学习中知识获取与利用机制的理解,并推动了更高效、可扩展的转化预测架构的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作