criteo/criteo-uplift|广告效果评估数据集|因果推断数据集
收藏数据集概述
基本信息
- 许可证: cc-by-nc-sa-4.0
- 标签: criteo, advertising, causality
- 美观名称: criteo-uplift
- 大小类别: 10M<n<100M
- 任务类别: tabular-classification
数据描述
- 数据来源: 该数据集是通过多个增量测试(一种随机试验程序,其中随机部分人口被阻止接收广告)的结果组合而成。
- 数据规模: 包含2500万行,每行代表一个用户,具有11个特征、一个处理指示符和2个标签(访问和转换)。
- 字段描述:
f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11
: 特征值(密集,浮点数)treatment
: 处理组(1 = 处理,0 = 对照)conversion
: 用户是否发生转换(二进制,标签)visit
: 用户是否发生访问(二进制,标签)exposure
: 处理效果,用户是否有效暴露(二进制)
隐私保护
- 数据已经进行了非均匀子采样,以防止从数据集中推断出原始增量水平,同时保持一个现实且具有挑战性的基准。特征名称已匿名化,其值已随机投影,以保持预测能力,同时实际上不可能恢复原始特征或用户上下文。
关键数据
- 格式: CSV
- 大小: 297M(压缩)
- 行数: 13,979,592
- 平均访问率: 0.046992
- 平均转换率: 0.00292
- 处理比率: 0.85
任务和代码
- 主要用途: 用于基准测试Uplift Modeling、个体处理效果预测/异质处理效果。
- 参考论文: ITE and UM
- 参考实验代码和评估: Github

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
FEVER
FEVER(Fact Extraction and VERification)数据集是一个用于事实验证任务的数据集,包含超过185,000个标注的声明,这些声明需要从维基百科中提取证据进行验证。数据集的目标是帮助开发和评估自动事实验证系统。
fever.ai 收录
CIFAR-10
CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成,每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。 数据集分为五个训练批次和一个测试批次,每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像,但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间,训练批次恰好包含来自每个类别的 5000 张图像。
OpenDataLab 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录