five

reczoo/Criteo_x2

收藏
Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/Criteo_x2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集使用了Criteo 1TB点击日志,包含一个月的点击数据,数据样本数量达到数十亿。为了减少标签不平衡,进行了负采样,使得正样本比例保持在50%左右。数据集包含13个数值特征字段和26个分类特征字段,其中数值字段通过分桶转换为分类值,出现次数少于20次的分类特征被设置为默认的<OOV>特征。数据集分为训练集和测试集,训练集使用data 6-12,测试集使用day-13。

该数据集使用了Criteo 1TB点击日志,包含一个月的点击数据,数据样本数量达到数十亿。为了减少标签不平衡,进行了负采样,使得正样本比例保持在50%左右。数据集包含13个数值特征字段和26个分类特征字段,其中数值字段通过分桶转换为分类值,出现次数少于20次的分类特征被设置为默认的<OOV>特征。数据集分为训练集和测试集,训练集使用data 6-12,测试集使用day-13。
提供机构:
reczoo
原始信息汇总

Criteo_x2 数据集概述

数据集描述

Criteo_x2 数据集基于 Criteo 1TB Click Logs,用于展示广告,包含一个月的点击数据,拥有数十亿数据样本。根据 AutoGroup 工作的设置,选择 "data 6-12" 作为训练集,"day-13" 作为测试集。为了减少标签不平衡,进行了负样本子采样,使得正样本比例大致为 50%。该数据集包含 13 个数值特征字段和 26 个类别特征字段。在此设置中,13 个数值字段通过分桶转换为类别值,而出现次数少于 20 次的类别特征被设置为默认的 <OOV> 特征。

数据集统计

数据集划分 总计 训练集 验证集 测试集
Criteo_x2 99,616,043 86,883,012 12,733,031

数据完整性校验

bash $ md5sum train.csv test.csv d4d08405e95836ee049455cae0f8b0d6 train.csv 32c14fbc7bfe02e72b501793e8db660b test.csv

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作