AntM2C
收藏arXiv2023-08-31 更新2024-06-21 收录
下载链接:
https://www.atecup.cn/home
下载链接
链接失效反馈官方服务:
资源简介:
AntM2C是由蚂蚁集团基于支付宝平台真实工业数据创建的大型多场景多模态点击率预测数据集。该数据集覆盖了支付宝平台上的五种不同类型的商品点击率数据,包括广告、优惠券、小程序、内容和视频。除了基于ID的特征外,AntM2C还提供了原始文本和图像两种多模态特征,有效连接不同ID的商品。数据集包含2亿用户和600万商品,总计10亿样本,是目前最大规模的点击率数据集,用于可靠和全面的点击率模型评估。AntM2C的应用领域包括多场景建模、商品和用户冷启动建模以及多模态建模,旨在解决推荐系统中的点击率预测问题。
AntM2C is a large-scale multi-scenario and multi-modal click-through rate (CTR) prediction dataset created by Ant Group using real industrial data from the Alipay platform. This dataset covers click-through rate data of five distinct product types on the Alipay platform, including advertisements, coupons, mini-programs, content, and videos. Beyond ID-based features, AntM2C also provides two multimodal features: raw text and images, which effectively link products with different IDs. The dataset contains 200 million users and 6 million products, with a total of 1 billion samples, making it the largest click-through rate dataset to date for reliable and comprehensive CTR model evaluation. Application scenarios of AntM2C include multi-scenario modeling, product and user cold-start modeling, and multimodal modeling, aiming to solve the click-through rate prediction problem in recommendation systems.
提供机构:
蚂蚁集团杭州,中国
创建时间:
2023-08-31
搜集汇总
数据集介绍

构建方式
AntM2C数据集的构建基于阿里巴巴旗下支付宝平台的真实工业数据,涵盖了五个不同类型的业务场景,包括广告、优惠券、小程序、内容和视频。数据集收集了2023年7月9日至17日9天内的用户点击数据,并对这些数据进行抽样和脱敏处理,以确保用户隐私安全。数据集提供了丰富的用户和物品特征,包括用户序列特征、物品文本特征以及其他辅助特征,如日志时间和场景标识。AntM2C数据集不仅包含基于ID的特征,还提供了多模态特征,如原始文本和图像特征,以有效解决不同场景间ID编码不一致的问题。
特点
AntM2C数据集具有以下特点:1)涵盖来自支付宝平台五个不同类型业务场景的点击率数据,包括广告、优惠券、小程序、内容和视频,为用户对不同物品的偏好提供了深入洞察;2)除了基于ID的特征外,还提供了多模态特征,如原始文本和图像特征,这些特征有助于建立不同场景间具有不同ID的物品之间的联系;3)AntM2C数据集包含10亿条点击率数据,包含2亿用户和600万物品,是目前规模最大的点击率数据集,为点击率模型的评估提供了可靠和全面的基准。
使用方法
使用AntM2C数据集进行点击率预测研究时,首先需要对数据进行预处理,包括数据划分、特征提取和负采样等。然后,可以选择合适的基线模型,如DNN、Shared Bottom、MMoE或PLE等,进行多场景点击率预测、冷启动点击率预测和多模态点击率预测等任务。在模型训练过程中,可以使用Adam优化器进行参数优化,并通过AUC指标评估模型性能。AntM2C数据集为点击率预测研究提供了丰富的数据和特征,有助于推动该领域的发展。
背景与挑战
背景概述
点击率预测(CTR预测)在推荐系统、在线广告和搜索引擎等领域扮演着至关重要的角色。近年来,随着用户需求的不断增长,CTR预测场景和项目类型变得越来越多样化,数据量也在不断增加。然而,现有的CTR数据集主要存在以下局限性:1) 缺乏多场景数据;2) 缺乏多模态特征;3) 数据规模相对较小。为了解决这些问题,Ant Group提出了AntM2C数据集,这是一个基于支付宝平台真实工业数据的、大规模多场景多模态CTR预测数据集。AntM2C数据集具有以下特点:1) 覆盖了支付宝平台上5种不同类型的商品的CTR数据,包括广告、优惠券、小程序、内容和视频,为不同商品的用户偏好提供了洞察;2) 除了基于ID的特征外,AntM2C还提供了丰富的多模态特征,如原始文本和图像特征,可以有效地建立不同场景中具有不同ID的商品之间的联系;3) AntM2C提供了1亿条CTR数据,包括2亿用户和600万商品,是目前最大的CTR数据集,可以提供可靠和全面的CTR模型评估。基于AntM2C,构建了几个典型的CTR任务,包括多场景建模、冷启动建模和多模态建模。
当前挑战
AntM2C数据集的提出,为CTR预测领域带来了新的研究挑战。首先,多场景CTR预测需要考虑不同场景下的用户偏好和商品特性,如何有效地建模和共享不同场景之间的知识是一个重要的挑战。其次,多模态CTR预测需要结合文本、图像等多种模态信息,如何有效地融合和处理多模态特征是一个重要的挑战。最后,AntM2C数据集的大规模特性也对CTR模型的训练和评估提出了更高的要求,如何设计高效的算法和模型是一个重要的挑战。
常用场景
经典使用场景
AntM2C数据集主要用于点击率(CTR)预测,这是一个在推荐系统、在线广告和搜索引擎等领域中至关重要的任务。该数据集涵盖了来自支付宝平台的五种不同类型物品的CTR数据,包括广告、优惠券、小程序、内容和视频。通过使用AntM2C数据集,研究人员可以构建和评估各种CTR预测模型,以优化广告收入、提升用户体验并提高用户参与度。此外,AntM2C数据集还提供了多模态特征,如原始文本和图像特征,这有助于解决不同场景中不一致的ID编码问题,并在多场景CTR预测中建立物品之间的联系。最后,AntM2C数据集提供了10亿CTR数据,是目前规模最大的公开CTR数据集,能够为CTR模型提供一个可靠和全面的评估。
解决学术问题
AntM2C数据集解决了现有CTR数据集的几个主要限制。首先,现有的CTR数据集通常只包括来自单一场景的相同类型物品的CTR数据,而AntM2C数据集涵盖了来自支付宝平台的五种不同类型物品的CTR数据,从而提供了更全面和多样化的评估。其次,现有的CTR数据集主要基于ID特征,而AntM2C数据集提供了多模态特征,如原始文本和图像特征,这有助于解决不同场景中不一致的ID编码问题,并在多场景CTR预测中建立物品之间的联系。最后,现有的CTR数据集通常规模较小,而AntM2C数据集提供了10亿CTR数据,是目前规模最大的公开CTR数据集,能够为CTR模型提供一个可靠和全面的评估。AntM2C数据集的出现对于CTR预测领域具有重要意义,它提供了一个更全面、多模态和大规模的数据集,使得研究人员能够更好地评估和改进CTR预测模型。
衍生相关工作
AntM2C数据集的提出引发了CTR预测领域的一系列相关研究。首先,基于AntM2C数据集,研究人员可以构建和评估各种CTR预测模型,并比较不同模型在不同场景下的性能。其次,AntM2C数据集的多模态特征可以用于研究多模态CTR预测,通过结合文本和图像等特征,提高CTR预测的准确性。此外,AntM2C数据集可以用于研究冷启动CTR预测,帮助研究人员解决用户和物品数据稀疏的问题,并提供更好的推荐。最后,AntM2C数据集可以用于研究多场景CTR预测,帮助研究人员更好地理解用户在不同场景下的偏好,并共享不同场景之间的知识,以提高CTR性能。总之,AntM2C数据集的提出对于CTR预测领域具有重要意义,它为研究人员提供了一个更全面、多模态和大规模的数据集,从而推动了CTR预测领域的发展。
以上内容由遇见数据集搜集并总结生成



