reczoo/Criteo_x2
收藏Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/Criteo_x2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用了Criteo 1TB点击日志,包含一个月的点击数据,数据样本数量达到数十亿。为了减少标签不平衡,进行了负采样,使得正样本比例保持在50%左右。数据集包含13个数值特征字段和26个分类特征字段,其中数值字段通过分桶转换为分类值,出现次数少于20次的分类特征被设置为默认的<OOV>特征。数据集分为训练集和测试集,训练集使用data 6-12,测试集使用day-13。
该数据集使用了Criteo 1TB点击日志,包含一个月的点击数据,数据样本数量达到数十亿。为了减少标签不平衡,进行了负采样,使得正样本比例保持在50%左右。数据集包含13个数值特征字段和26个分类特征字段,其中数值字段通过分桶转换为分类值,出现次数少于20次的分类特征被设置为默认的<OOV>特征。数据集分为训练集和测试集,训练集使用data 6-12,测试集使用day-13。
提供机构:
reczoo
原始信息汇总
Criteo_x2 数据集概述
数据集描述
Criteo_x2 数据集基于 Criteo 1TB Click Logs,用于展示广告,包含一个月的点击数据,拥有数十亿数据样本。根据 AutoGroup 工作的设置,选择 "data 6-12" 作为训练集,"day-13" 作为测试集。为了减少标签不平衡,进行了负样本子采样,使得正样本比例大致为 50%。该数据集包含 13 个数值特征字段和 26 个类别特征字段。在此设置中,13 个数值字段通过分桶转换为类别值,而出现次数少于 20 次的类别特征被设置为默认的 <OOV> 特征。
数据集统计
| 数据集划分 | 总计 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|---|
| Criteo_x2 | 99,616,043 | 86,883,012 | 12,733,031 |
数据完整性校验
bash $ md5sum train.csv test.csv d4d08405e95836ee049455cae0f8b0d6 train.csv 32c14fbc7bfe02e72b501793e8db660b test.csv



