DoubleML/multimodal_confounding

Name: DoubleML/multimodal_confounding
Creator: DoubleML
Published: 2024-03-12 08:07:23
License: 暂无描述

Hugging Face2024-03-12 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/DoubleML/multimodal_confounding

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个半合成的多模态混杂数据集，用于评估因果效应估计方法。数据集基于三个常用数据集（Diamonds、IMDB和CIFAR-10）生成，包含文本、图像和表格特征。数据集的目标是生成可信的混杂效应，使得处理效应的估计值通常小于0.5。数据集包含50,000个样本，分为训练集，并提供了多个特征字段，如结果变量Y、处理变量D_1、文本评论、情感标签、图像、价格、钻石特征等。数据集还包含一些用于基准测试的Oracle值，如cond_exp_y、l1、m1和g1。数据集的生成过程基于部分线性模型，详细描述可参考相关论文。

提供机构：

DoubleML

原始信息汇总

数据集概述

数据集信息

许可证: BSD-3-Clause
特征:
- 数值型特征: cond_exp_y, m1, g1, l1, Y, D_1, carat, depth, table, price, x, y, z (均为float64类型)
- 文本特征: review (字符串类型), sentiment (字符串类型)
- 图像特征: image (图像类型), label (整数类型)
- 布尔特征: 包括cut_*, color_*, clarity_*系列特征 (均为布尔类型)
- Oracle特征: cond_exp_y, l1, m1, g1 (均为float64类型)
数据分割:
- 训练集: 50000个样本, 大小为185209908.0字节
数据集大小: 185209908.0字节
下载大小: 174280492字节
标签: Causal Inference
大小类别: 10K<n<100K

数据集描述与使用

数据生成模型: 遵循部分线性模型，其中治疗效果常数为0.5。
目标变量: sentiment, label, price 用于生成负向混杂因素，影响Y和D_1。
数据集用途: 作为观测数据下多模态混杂因素的因果推断方法比较的基准。

数据集来源

基础数据集:
- Diamonds dataset
- IMDB dataset
- CIFAR-10 dataset
数据预处理: 所有数据集均采样至相同大小（50,000个样本），并进行必要的清洗和转换。

数据集结构

数据字段:
- 结果与处理: Y, D_1
- 文本特征: review, sentiment
- 图像特征: image, label
- 表格特征: price, carat, x, y, z, depth, table 及切割、颜色、清晰度相关特征
- Oracle特征: cond_exp_y, l1, m1, g1

限制

混杂因素: 由于混杂因素是通过原始标签生成的，完全移除混杂因素可能不可行。

引用信息

数据集引用: 使用时需引用相关文章。
原始数据集引用: 包括Diamonds, IMDB, CIFAR-10数据集的引用信息。

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个半合成基准数据集，专门用于评估多模态混杂下的因果效应估计方法。它结合了文本（IMDB评论）、图像（CIFAR-10）和表格（钻石属性）三种模态的数据，通过模拟负向混杂来测试因果推断模型的性能。数据集包含50,000个样本，提供了真实值特征用于基准对比，适用于研究多模态数据在因果分析中的挑战。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集