DoubleML/multimodal_confounding
收藏Hugging Face2024-03-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/DoubleML/multimodal_confounding
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个半合成的多模态混杂数据集,用于评估因果效应估计方法。数据集基于三个常用数据集(Diamonds、IMDB和CIFAR-10)生成,包含文本、图像和表格特征。数据集的目标是生成可信的混杂效应,使得处理效应的估计值通常小于0.5。数据集包含50,000个样本,分为训练集,并提供了多个特征字段,如结果变量Y、处理变量D_1、文本评论、情感标签、图像、价格、钻石特征等。数据集还包含一些用于基准测试的Oracle值,如cond_exp_y、l1、m1和g1。数据集的生成过程基于部分线性模型,详细描述可参考相关论文。
该数据集是一个半合成的多模态混杂数据集,用于评估因果效应估计方法。数据集基于三个常用数据集(Diamonds、IMDB和CIFAR-10)生成,包含文本、图像和表格特征。数据集的目标是生成可信的混杂效应,使得处理效应的估计值通常小于0.5。数据集包含50,000个样本,分为训练集,并提供了多个特征字段,如结果变量Y、处理变量D_1、文本评论、情感标签、图像、价格、钻石特征等。数据集还包含一些用于基准测试的Oracle值,如cond_exp_y、l1、m1和g1。数据集的生成过程基于部分线性模型,详细描述可参考相关论文。
提供机构:
DoubleML
原始信息汇总
数据集概述
数据集信息
- 许可证: BSD-3-Clause
- 特征:
- 数值型特征:
cond_exp_y,m1,g1,l1,Y,D_1,carat,depth,table,price,x,y,z(均为float64类型) - 文本特征:
review(字符串类型),sentiment(字符串类型) - 图像特征:
image(图像类型),label(整数类型) - 布尔特征: 包括
cut_*,color_*,clarity_*系列特征 (均为布尔类型) - Oracle特征:
cond_exp_y,l1,m1,g1(均为float64类型)
- 数值型特征:
- 数据分割:
- 训练集: 50000个样本, 大小为185209908.0字节
- 数据集大小: 185209908.0字节
- 下载大小: 174280492字节
- 标签: Causal Inference
- 大小类别: 10K<n<100K
数据集描述与使用
- 数据生成模型: 遵循部分线性模型,其中治疗效果常数为0.5。
- 目标变量:
sentiment,label,price用于生成负向混杂因素,影响Y和D_1。 - 数据集用途: 作为观测数据下多模态混杂因素的因果推断方法比较的基准。
数据集来源
- 基础数据集:
- Diamonds dataset
- IMDB dataset
- CIFAR-10 dataset
- 数据预处理: 所有数据集均采样至相同大小(50,000个样本),并进行必要的清洗和转换。
数据集结构
- 数据字段:
- 结果与处理:
Y,D_1 - 文本特征:
review,sentiment - 图像特征:
image,label - 表格特征:
price,carat,x,y,z,depth,table及切割、颜色、清晰度相关特征 - Oracle特征:
cond_exp_y,l1,m1,g1
- 结果与处理:
限制
- 混杂因素: 由于混杂因素是通过原始标签生成的,完全移除混杂因素可能不可行。
引用信息
- 数据集引用: 使用时需引用相关文章。
- 原始数据集引用: 包括Diamonds, IMDB, CIFAR-10数据集的引用信息。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个半合成基准数据集,专门用于评估多模态混杂下的因果效应估计方法。它结合了文本(IMDB评论)、图像(CIFAR-10)和表格(钻石属性)三种模态的数据,通过模拟负向混杂来测试因果推断模型的性能。数据集包含50,000个样本,提供了真实值特征用于基准对比,适用于研究多模态数据在因果分析中的挑战。
以上内容由遇见数据集搜集并总结生成



