reczoo/Avazu_x1
收藏Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/Avazu_x1
下载链接
链接失效反馈官方服务:
资源简介:
# Avazu_x1
+ **Dataset description:**
This dataset contains about 10 days of labeled click-through data on mobile advertisements. It has 22 feature fields including user features and advertisement attributes. The preprocessed data are randomly split into 7:1:2\* as the training set, validation set, and test set, respectively.
The dataset statistics are summarized as follows:
| Dataset | Total | #Train | #Validation | #Test |
| :--------: | :-----: |:-----: | :----------: | :----: |
| Avazu_x1 | 40,428,967 | 28,300,276 | 4,042,897 | 8,085,794 |
+ **Source:** https://www.kaggle.com/c/avazu-ctr-prediction/data
+ **Download:** https://huggingface.co/datasets/reczoo/Avazu_x1/tree/main
+ **Repository:** https://github.com/reczoo/Datasets
+ **Used by papers:**
- Weiyu Cheng, Yanyan Shen, Linpeng Huang. [Adaptive Factorization Network: Learning Adaptive-Order Feature Interactions](https://ojs.aaai.org/index.php/AAAI/article/view/5768). In AAAI 2020.
- Kelong Mao, Jieming Zhu, Liangcai Su, Guohao Cai, Yuru Li, Zhenhua Dong. [FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction](https://arxiv.org/abs/2304.00902). In AAAI 2023.
- Jieming Zhu, Qinglin Jia, Guohao Cai, Quanyu Dai, Jingjie Li, Zhenhua Dong, Ruiming Tang, Rui Zhang. [FINAL: Factorized Interaction Layer for CTR Prediction](https://dl.acm.org/doi/10.1145/3539618.3591988). In SIGIR 2023.
+ **Check the md5sum for data integrity:**
```bash
$ md5sum train.csv valid.csv test.csv
f1114a07aea9e996842c71648e0f6395 train.csv
d9568f246357d156c4b8030fadb8b623 valid.csv
9e2fe9c48705c9315ae7a0953eb57acf test.csv
```
# Avazu_x1
+ **数据集描述:**
本数据集包含约10天的移动广告标注点击数据,共涵盖22个特征字段,包含用户特征与广告属性两类信息。经预处理后的数据集已按照7:1:2的比例随机划分为训练集、验证集与测试集。
数据集统计信息如下:
| 数据集 | 总样本量 | 训练集样本量 | 验证集样本量 | 测试集样本量 |
| :--------: | :-----: |:-----: | :----------: | :----: |
| Avazu_x1 | 40,428,967 | 28,300,276 | 4,042,897 | 8,085,794 |
+ **数据来源:** https://www.kaggle.com/c/avazu-ctr-prediction/data
+ **下载地址:** https://huggingface.co/datasets/reczoo/Avazu_x1/tree/main
+ **数据集仓库:** https://github.com/reczoo/Datasets
+ **引用论文:**
- 程伟宇,沈妍妍,黄麟鹏. 《自适应分解网络:学习自适应阶数特征交互(Adaptive Factorization Network: Learning Adaptive-Order Feature Interactions)》[https://ojs.aaai.org/index.php/AAAI/article/view/5768],发表于2020年美国人工智能协会年会(AAAI 2020).
- 毛克龙,朱杰明,苏良才,蔡国浩,李昱儒,董振华. 《FinalMLP:面向点击率(Click-Through Rate, CTR)预测的增强型双流MLP模型(FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction)》[https://arxiv.org/abs/2304.00902],发表于2023年美国人工智能协会年会(AAAI 2023).
- 朱杰明,贾庆林,蔡国浩,戴全宇,李静杰,董振华,唐瑞明,张锐. 《FINAL:面向点击率预测的分解交互层模型(FINAL: Factorized Interaction Layer for CTR Prediction)》[https://dl.acm.org/doi/10.1145/3539618.3591988],发表于2023年国际计算机学会信息检索年会(SIGIR 2023).
+ **数据完整性MD5校验:**
bash
$ md5sum train.csv valid.csv test.csv
f1114a07aea9e996842c71648e0f6395 train.csv
d9568f246357d156c4b8030fadb8b623 valid.csv
9e2fe9c48705c9315ae7a0953eb57acf test.csv
提供机构:
reczoo
原始信息汇总
Avazu_x1 数据集概述
数据集描述
该数据集包含大约10天的移动广告点击数据,具有22个特征字段,包括用户特征和广告属性。预处理后的数据被随机分为训练集、验证集和测试集,比例为7:1:2。
数据集统计信息
| 数据集 | 总计 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|---|
| Avazu_x1 | 40,428,967 | 28,300,276 | 4,042,897 | 8,085,794 |
数据完整性校验
使用以下md5sum值进行数据完整性校验:
bash $ md5sum train.csv valid.csv test.csv f1114a07aea9e996842c71648e0f6395 train.csv d9568f246357d156c4b8030fadb8b623 valid.csv 9e2fe9c48705c9315ae7a0953eb57acf test.csv
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



