LongCTR

github2025-02-26 更新2025-02-28 收录

下载链接：

https://github.com/reczoo/LongCTR

下载链接

链接失效反馈

官方服务：

资源简介：

用于CTR预测的长序列建模基准

Benchmark for Long Sequence Modeling in CTR Prediction

创建时间：

2025-02-26

原始信息汇总

LongCTR 数据集概述

数据集简介

LongCTR 是一个用于点击率（CTR）预测的长序列建模基准测试，包含以下三个公开数据集：

MicroVideo
- 数据来源：https://huggingface.co/datasets/reczoo/MicroVideo1.7M_x2
- 特点：包含170万条微视频交互记录
KuaiVideo
- 数据来源：https://huggingface.co/datasets/reczoo/KuaiVideo_x2
- 特点：来自快手平台的视频交互数据
EBNeRD-Small
- 数据来源：https://huggingface.co/datasets/reczoo/Ebnerd_small_x1
- 特点：小规模电子商务新闻推荐数据集

基准模型

包含10个CTR预测模型及其原始论文：

编号	模型名称	发表会议/年份	论文链接
1	DCNv2	WWW 2021	链接
2	FinalMLP	AAAI 2023	链接
3	DIN	KDD 2018	链接
4	DIEN	AAAI 2019	链接
5	TransAct	KDD 2023	链接
6	SIM	CIKM 2020	链接
7	ETA	DLP-KDD 2022	链接
8	SDIM	CIKM 2022	链接
9	TWIN	KDD 2023	链接
10	MIRRN	KDD 2025	链接

基准测试结果

以序列长度50的DIN模型为基线，比较各模型在不同序列长度下的AUC和gAUC指标表现：

MicroVideo数据集表现

最佳AUC：DIEN模型在序列长度1000时达到72.20（+5.0%）
最佳gAUC：ETA模型在序列长度500时达到71.45（+2.5%）

KuaiVideo数据集表现

最佳AUC：FinalMLP模型在序列长度1000时达到70.64（+3.6%）
最佳gAUC：FinalMLP和SDIM模型在序列长度1000时均达到67.40（+1.0%）

EBNeRD-Small数据集表现

最佳AUC：DIN模型在序列长度1000时达到71.92（+2.1%）
最佳gAUC：DIN模型在序列长度1000时达到71.28（+1.9%）

复现方法

通过以下命令可复现SIM模型在MicroVideo数据集（序列长度50）的结果： bash python run_param_tuner.py --config benchmark/SIM_microvideo1.7m_x2/SIM_microvideo1.7m_x2_tuner_config_01_50.yaml --tag 005 --gpu 0

搜集汇总

数据集介绍

构建方式

LongCTR数据集旨在为长序列建模在点击率（CTR）预测领域的应用提供一个评估基准。该数据集的构建采取了对用户长期行为序列的捕获，并以此为基础，整合了用户行为数据、广告信息及其他相关特征，构建出一个多维度的数据集，以供模型训练和评估。

特点

该数据集的主要特点在于其序列长度的扩展，能够捕捉并反映用户的长期兴趣变化，这对于传统的CTR预测模型是一个重要的补充。此外，数据集融合了多样化的特征，包括但不限于用户行为特征、广告内容特征，从而为建模提供了丰富的信息维度。其标注数据的准确性和完整性也为模型的训练和验证提供了可靠保障。

使用方法

使用LongCTR数据集时，研究者需首先理解数据集中的各个特征及其含义，然后根据具体的预测任务选择合适的模型进行训练。数据集提供了预处理脚本，帮助用户准备输入数据。在模型训练过程中，用户需关注序列长度的处理、特征工程以及模型参数的调优。通过准确评估模型性能，研究者可以不断迭代优化模型，以提升CTR预测的准确性。

背景与挑战

背景概述

在计算广告与推荐系统领域，点击率（Click-Through Rate, CTR）预测是评估广告或推荐内容效果的关键指标。LongCTR数据集应运而生，旨在为长序列建模在CTR预测中的应用提供基准。该数据集由业界与学术界共同于近年构建，核心研究问题聚焦于如何利用长序列信息来更精确地预测用户的点击行为，对提升个性化广告投放的相关研究产生了显著影响。

当前挑战

LongCTR数据集面临的挑战主要包括两个方面：一是领域问题上的挑战，即在处理用户长期行为序列时，如何有效建模用户兴趣的时效性和动态变化；二是构建过程中的挑战，如如何从大规模日志数据中提取并构建高质量的长序列特征，同时保证数据隐私和计算效率。

常用场景

经典使用场景

在广告点击率（CTR）预测领域，LongCTR数据集以其长序列建模的特性，成为评估与优化CTR模型的重要基准。该数据集的经典使用场景在于，研究者通过其提供的长用户行为序列，训练深度学习模型以捕捉用户的长期兴趣和短期行为，从而提高广告推荐的准确性。

解决学术问题

LongCTR数据集解决了传统CTR预测模型中难以处理用户长期历史信息的难题。它为学术界提供了一个统一的评价标准，有助于研究者探索长序列对点击率预测的影响，并推动CTR预测算法的进步，对提升个性化推荐系统的性能具有重要意义。

衍生相关工作

基于LongCTR数据集，学术界涌现出大量相关研究工作，包括但不限于改进长序列处理技术、提出新的CTR预测模型架构，以及探索结合多源数据以提高预测准确性的方法。这些研究进一步丰富了CTR预测领域的理论体系，并为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集